0%

【论文阅读】Parameter Learning for an Intuitionistic Fuzzy Belief Rule-Based Systems Based on Weight and Reliability

【论文阅读】Parameter Learning for an Intuitionistic Fuzzy Belief Rule-Based Systems Based on Weight and Reliability

DIO:10.20965/jaciii.2019.p0219

期刊:Journal of Advanced Computational Intelligence and

作者:王燕妮(北京航空航天大学软件学院)

年份:2019

引用:Wang Y . Parameter Learning for an Intuitionistic Fuzzy Belief Rule-Based Systems Based on Weight and Reliability[J]. Journal of Advanced Computational Intelligence and Intelligent Informatics, 2019.

 

本文的目的是为了提高 IFBRB 系统的精度,提出了一种 PL-RW-IEC 的学习方法。本学习方法(PL-RW-IEC)的不同之处在于对证据的可靠性和证据的权重进行了分开处理,因为它们衡量的是证据的不同属性。证据重要性衡量的是证据之间的关系,它衡量的是证据对其他证据的支持程度,可以使用外部冲突来计算证据权重值。证据可靠性衡量的是证据本身的可靠程度,可以使用证据的内部冲突来计算证据的可靠性。

PL-RW-IEC 的学习方法步骤可以归纳为:首先通过证据的轮廓函数 ,计算证据的内部冲突和证据之间的外部冲突;再通过证据的内部冲突和外部冲突,计算证据的可靠性和权重。 结合证据的权重和可靠性,用证据推理的方法计算出综合信度;最后将效用分配给组合信念度,计算出模型输出。

 

基于权重和可靠性的IFBRB的参数学习

摘要:参数学习的目的是为了保证基于直觉的模糊置信规则库系统(IFBRB)的准确性,同时考虑权重和可靠性。 本文的主要贡献是将可靠性和权重分别作为证据的内在属性和外在属性进行区分,提出了一种同时考虑内外部冲突的可靠性和权重的参数学习方法(PL-RW-IEC),引入具有可靠性和权重的证据推理作为学习过程的基础。

 

1.背景介绍

随着模糊理论的发展,基于模糊信念规则的系统扩展为基于直觉的模糊信念规则系统(IFBRBSs)。证据推理是IFBRBSs的基础,证据推理(Evidence reasoning,ER)包括两个方面:多源证据和证据组合。证据推理的关键内容是证据组合。然而,如何避免因为组合冲突的信念而产生反直觉的结果,是组合规则的一大难题。

目前组合冲突置信的方法有:

  • Dempster规则【1968-Dempster,A generalization of Bayesian inference】没有定义两个完全冲突的规则如何结合,而结合高度冲突的证据时可能导致不合理的结果。
  • Yager规则【1987-On the Dempster-Shafer framework and new combination rules】将相互冲突的信念重新分配到辨证框架上,作为一种全局性的无知。它不是一个概率推理过程。
  • Dubois和Prade规则【1988-Representation and combination of uncertainty with belief functions and possibility measures】在冲突发生的焦点命题中重新分配冲突的信念。PCR5规则在局部重新分配冲突的信念。与Dempster规则不同的是,上述其他规则并不是一个共轭式或概率式的推理过程。
  • Haenni的组合规则【2005-Shedding new light on Zadeh’s criticism of Dempster’s rule of combination】改变了证据的特殊性,不合并完全可靠但高度冲突的证据。不是贝叶斯推理过程的组合规则的结果可能导致不可解释的结果。
  • 杨剑波提出了证据推理规则【2013-Evidential reasoning rule for evidence combination】来组合证据。 大多数组合方法都只考虑证据的权重。但杨剑波提出,在组合过程中,可靠性是证据的内在属性,不应忽视或不与证据的权重混为一谈。

其他的相关研究有:

  • 为了减少证据组合过程中的误差,Browne【2013-Integrating textual analysis and evidential reasoning for decision making in engineering design】提出在组合前应根据不同的可靠性对证据来源进行折现。构建一个最大的一致子集来检查出不一致或非一致的证据。 基本信念分配之间的距离(bbas)可以定义为代表证据源之间的异同。
  • Jiang【2012-A new evidential trust model for open distributed systems】认为,许多组合规则只关注冲突再分配的空间和权重问题,而忽略了导致冲突的原因是证据源不可靠。 他们将冲突矩阵计算出的证据的可靠性视为修改组合规则的折现因子。因此,可靠性是证据的一个重要属性,在推理过程中需要单独处理。可靠性可以通过计算不同证据来源之间的冲突或不一致来获得。大多数研究者用归一化前分配给空集的综合信念的质量m⊕(Φ)来衡量冲突程度。
  • Liu【2006-Analyzing the degree of conflict among belief functions】提出了两个维度来衡量冲突,不仅考虑m⊕(Φ),还考虑两个bbas的投注承诺之间的距离。
  • Fu【2011-Analyzing the applicability of Dempster’s rule to the combination of interval-valued belief structures】提出了对优化模型来衡量区间值信念结构之间的一致性区间。然而,可靠性是证据的独立属性,不同于证据的权重。可靠性是由证据本身决定的,而不是由证据来源之间的关系决定的。在这个意义上,由证据源之间的冲突或不一致间接决定的可靠性对组合结果来说是不合理的。
  • Roquel【2014-Decomposition of conflict as a distribution on hypotheses in the framework on belief functions】总结道,源内冲突是指当把一个源所提供的信息建模为信念函数时,该源所固有的冲突。源间冲突是指合并源时出现的冲突。他们提出将空集的质量分解为两部分。在他们的建议中,空集的质量应该是已知的。组合规则没有设计。
  • Destercke【2013-Toward an axiomatic definition of conflict between belief functions】提出了一个内外冲突分离的框架,以确保组合证据源时的安全性。 如果空集的质量不知道,那么可以采用这种方法。

本文的动机是单独考虑证据的可靠性和权重。可靠性被认为是证据的内在属性,由证据本身决定。权重被认为是证据的外部属性,由证据来源之间的关系决定。本文的主要贡献有两个方面:一是可靠性由内部冲突获得,权重由证据组合前的外部冲突获得。另一个是在组合规则中,根据可靠性和权重对证据来源进行折算。基于这两个方面,提出了对IFBRBSs分别考虑由内部冲突和外部冲突决定的可靠性和权重的参数学习方法(PL-RW-IEC)。

 

2.IFBRB 结构

传统的 BRB 系统的规则格式定义为:

 

基于直觉的模糊置信规则系统(Intuitionistic Fuzzy Belief Rule-Based Systems,IFBRBSs)是基于传统 BRB 系统的扩展。

【IFBRB系统的个体匹配度】在 IFBRB 中,前件属性在从输入 到参考值 的转换中,输入的置信度 被转换为匹配度 ,其计算公式为 ,其中 之间的匹配度函数。即:

其中:

  • 表示输入评估 的隶属函数;
  • 表示输入评估 的非隶属函数;
  • 表示前件评估 的隶属函数;
  • 表示前件评估 的非隶属函数;

 

【IFBRB系统的属性权重和激活权重的计算】可信度因子的分配方式与权重分配方式相同,在本研究中,采用同样的方法,属性权重用CFk1,CFk2,--,CFkTk表示.属性权重的归一化函数计算方法如

第 k 个规则的激活权重为:

,其中

 

【IFBRB系统的后件属性区间置信度】将激活的规则进行合成得到后件属性的区间置信度:

由专家给出 N 个后件属性初始的置信度 ,……, ,然后用上面公式更新传统BRB。也就是说将:

更新为:

 

参考自:直觉模糊集隶属度与非隶属度函数的确定方法 - 道客巴巴

 

3.DS理论

设 Θ={θ1,θ2,...,θn} 是一组穷尽和互斥的命题集合,称为辨证框架。

【定义1,基本概率分配】基本信念分配(BBA)是一种映射,将 1 分配给辨证框架的幂集 2^Θ = {∅,θ1,θ2,...,θn,{θ1,θ2},...,{θ1,θn},...,{θ1,...,θn−1},Θ}。m(θ)表示分配给命题θ的基本概率质量,表示命题θ被证据支持的程度。

  • 信任函数定义为:
  • 似然函数定义为:
  • 共性函数定义为:
  • 轮廓函数定义为:

对于任意θ ⊆Θ,轮廓函数为 pl(θ)=Pl({θ})=Q({θ})。

 

【定义2 ,Shafer的折扣】假设m(θ)是一个证据指向命题θ的基本信念分配(BBA),加入因子α∈[0,1]对m(θ)进行打折,其中α可以认为是证据的可靠性。 Shafer的打折方法定义如下:

其中α=0代表完全不可靠的来源,α=1代表完全可靠的来源。Shafer的打折方法改变了原始证据的特异性。

 

【Dempster规则组合】Dempster规则组合的运算如下定义:

DS理论对于基本概率质量 "冲突 "没有明确的解释。在Dempster-Shafer(DS)理论的语境中,归一化前分配给空集的组合信念的质量 m⊕(∅) 被认为是两件证据之间的冲突。 两个信息源之间的冲突是一个需要解决的关键问题。

Liu【2006,Analyzing the degree of conflict among belief functions】认为,Dempster的冲突m⊕(∅)不足以作为衡量两个bbas之间冲突的量化标准,尤其是在评估两个来源是否一致时。Liu 认为,m⊕(∅)只代表组合后未承诺的信念(或虚假承诺的信念)的质量。

Liu 提出了一个二维冲突度量 ,其中 difBetP 为投注承诺之间的距离。对bbas之间的距离进行了回顾,并提出了新的具有一致性的组合规则的距离度量[23]。

Destercke【2013,Toward an axiomatic definition of conflict between belief functions】不同意bbas之间的距离度量应该是一个唯一的度量,或者作为冲突的补充度量,因此提出了一个框架来分离内部和外部冲突。

Dubois和Prade【1994,La fusion d’ informations impr´ecises】提出,如果两个信息源之间的冲突很高,那么至少其中一个信息源可能是不可靠的。 在这个意义上,高冲突被视为对信息源可靠性的怀疑[8]。

 

【定义3,内部冲突和外部冲突】设m1和m2为两个bas,那么:

  • m1 和 m2 的内部冲突定义为 :
  • m1 和 m2 的外部冲突定义为:

其中 pl1 和 pl2 定义为: ,分别是bbas m1和m2的轮廓函数。这个过程是将m1和m2转化为内部冲突为空的

 

【问题总结】本文是基于区分内部冲突和外部冲突的建议【2013,Toward an axiomatic definition of conflict between belief functions】,在可靠性和权重的组合规则过程中,可靠性被视为由证据内部冲突决定的内部属性,而不是使用Dempster冲突。 权重被视为由外部证据冲突决定的外部属性。将可靠性和权重引入到规则中,经过参数学习后,组合规则的精度得到提高。

要实现这个过程,需要解决以下问题:

  • 1)基于证据内部冲突和外部冲突的可靠性和权重的计算;
  • 2)具有可靠性和权重的证据来源的组合规则;
  • 3)组合后的参数学习;

 

 

4.具有可靠性和权重的参数学习法

在本节中,提出了同时考虑可靠性和由内外冲突决定权重的参数学习方法(PL-RW-IEC)。如果两个证据之间的冲突较多,从某种意义上讲,其中至少有一个证据可能是不可靠的。冲突越小,一个证据支持另一个证据的程度越大。但是,传统方法是通过两个证据之间的支持度间接获得可靠性。 本文认为,最好是直接通过证据的内部冲突来获得可靠性。

可靠性是证据本身的属性,不受其他证据的影响。也就是说,无论组合与否,可靠性都不会因其个体属性而改变。在传统的组合方法中,可靠性和权重是不分离的。在本方案中,证据的权重是指证据的重要程度,主要体现在组合过程中。

 

4.1 可靠性与权重

【可靠性】无论组合与否,可靠性都是由证据本身决定的内在属性。证据 θ 的可靠性计算定义为:

其中 ηk 为可靠性的系数;plk 为 bbas mk 的轮廓函数。

 

【权重】当组合证据源时,激活的权重受两个方面的影响:一个是使用 间的匹配度 更新的原始权重。另一个是受来源之间的冲突影响。本文证据的权重计算定义为:

其中 ξk 为权重系数,k=1,2,...,L,s=1,2,...,L,n=1,2,...,N。

新的组合法是将证据与可靠性和权重相结合。它是由Yan提出的。Yang与本研究的不同之处在于,可靠性和权重是根据内部冲突和外部冲突得到的。结合证据是将递归ER算法扩展为分析ER算法,同时具有可靠性和权重。

 

4.2 规则组合(ER-RW)

[定义4,ER与可靠性和权重组合规则,ER-RW】假设wk为证据的权重,rk为证据的可靠性,则证据的基本概率质量分配定义为:

它可以看作是Shafer打折方法的一种扩展形式,将因子α改为 Crw,k。根据ER-RW打折方法,组合规则的分析形修改为:

其中,e(k) 代表第k个用于组合的证据来源。

 

4.3 参数学习(PL-RW-IEC)

本节提出了一种 IFBRB 系统的参数的方法PL-RW-IEC。该方法的主要过程如图1所示。

PL-RW-IEC的主要贡献是不仅考虑了证据的重要性,还考虑了证据的可靠性。在推理过程中,证据重要性和证据可靠性需要分开处理,因为它们衡量的是证据的不同属性。证据重要性衡量的是证据之间的关系,它衡量的是证据对其他证据的支持程度。证据可靠性衡量的是证据本身的可靠程度。

在本方案中,在证据件的组合过程中,与杨建国[8]的主要区别在于,证据的内部冲突与证据的可靠性有关。 证据之间的外部冲突是与证据的权重有关。因此,证据组合前的第一项重要工作就是计算证据的两种属性:可靠性rk和权重wk。

 

根据图1,可以看出PL-RW-IEC分为两部分:

  • 第一,利用3.2节中提到的证据与权重和可靠性的结合,计算模型输出ˆy。
  • 第二,要学习的参数有(包括属性权重δki、规则权重ϖk、可靠性系数ηk、权重系数ξk、效用值un),采用参数学习法定义约束条件。 目标函数是最小化实际输出 y∗ 与模型输出 ˆy 之间的MSE。

 

在本研究中,PL-RW-IEC的步骤有:

  • step1:通过证据的轮廓函数 ,计算证据的内部冲突和证据之间的外部冲突。

    证据的轮廓函数:

    内部冲突 :

    外部冲突:,其中

 

  • step2:通过证据的内部冲突和外部冲突,计算证据的可靠性和权重。

    证据可靠性:

    证据权重:

 

  • step3:结合证据的权重和可靠性,计算出综合信度。

    结合证据权重和可靠性:

    计算出综合信度:

 

  • step4:将效用分配给组合信念度,计算出模型输出。通过下面非线性优化模型计算输出 ˆy:

计算得到模型的输出为

 

  • step5:将实际输出 y∗ 与模型输出 ˆy之间的误差最小化,得到IFBRBSs的新参数。

     

为了求解非线性模型,Chen[26]证明了综合信念度βθn,e(k)随基本信念度pθn,k的增加而单调增加,Chen[27]证明了综合信念度βΘ,e(k)随基本信念度pθn,k的增加而单调降低。因此,βθn,e(k)和βΘ,e(k)的最小和最大是pθn,k的极点。

 

5.案例研究

5.1 数据训练

采用北京大学第三医院的脑卒中规则库[28]。在脑卒中的规则库中,规则数量为52条。

【前件属性】在规则库中有四个前因属性Tk=4。它们分别是日常生活活动(ADL)、痉挛、肌力和肌张力。这四个属性用直观的梯形模糊数(ITFNs)表示。通过评价量表收集四个症状。 每个前件属性的参考值设置为:

  • Activity of Daily Living (ADL):{(Very high, α11), (High, α12), (Medium, α13),(Low, α14), (Very low, α15)}
  • Spasm:{(Very high,α21),(High, α22), (Fairly low, α23),(Low, α24), (Very low, α25)}
  • Muscle strength:{(Absolutely high, α31), (Very high, α32), (High, α33),(Fairly high, α34), (Medium, α35), (Fairly low, α36),(Low, α37), (Very low, α38), (Absolutely low, α39)}
  • Muscle tone:{(Very high, α41), (High, α42), (Fairly low, α43),(Low, α44), (Very low, α45)}

【后件属性】有三个时期来表示患者的状态。R1-R24是关于弛缓性瘫痪期。R25-R28是关于痉挛期。R29-R52为疗养期。这三个时期被认为是脑卒中诊断规则基础的后果。

测试数据来自于临床测试问卷所做的一组患者信息采集。 参与检测的患者有68例。他们是不同级别的卒中。输出分为三个时期,分别代表三种不同的脑卒中状态

展示规则库中的部分规则:

  • R6: If ADL is Very high and Spasm is Very low and Muscle strength is High and Muscle tone is Low, then the stroke level is the flaccid paralysis period.
  • R26: If ADL is Medium and Spasm is Fairly low and Muscle strength is High and Muscle tone is Very high, then the stroke level is the spastic period.
  • R46: If ADL is Very low and Spasm is High and Muscle strength is Absolutely high and Muscle tone is Fairly low, then the stroke level is the convalescence period

 

参数学习前的模型估计输出和真实值

 

可以看出估计值和真实值还有较大误差,参数学习后的模型估计输出和真实值:

从图3可以看出,通过PL-RW-IEC学习后的模拟输出可以很好地拟合实际输出,它们之间的均方误差(MSE)从0.2596×10-3降低到0.0348×10-4。 它们之间的均方误差(MSE)从0.2596×10-3降低到0.0348×10-4

 

5.2 比较分析

测试了三种不同的学习方法。(PL-RW-IEC, PL-RW-DC, PL-NR)。

  • PL-RW-IEC:这是本文提出的学习方法,这种学习方法将证据重要性和证据可靠性需要分开处理,因为它们衡量的是证据的不同属性。证据重要性衡量的是证据之间的关系,它衡量的是证据对其他证据的支持程度,可以使用外部冲突来计算证据权重值。证据可靠性衡量的是证据本身的可靠程度,可以使用证据的内部冲突来计算证据的可靠性。

    证据可靠性:

    证据权重:

  • PL-RW-DC:这种学习方法中可靠性和权重是由Dempster冲突决定,本质上,它并不区分可靠性和权重。

    证据可靠性:

    证据权重:

  • PL-NR:这种方法只考虑权重,不考虑可靠性。另外,在计算权重时,不考虑bbas之间冲突的影响。

    证据权重:

三种方法在训练前的输出如图4所示:

从图4中可以看出,三种方法的真实输出与模拟输出之间的偏差非常大。特别是PL-RW-DC与实际输出的偏差很大。为了减小较大的误差,对参数进行学习,以提高模型的性能。训练后的输出如图 7 所示:

从图7中可以看出,三种方法学习后的实际输出与模拟输出之间的偏差有了很大的减小,但有两种方法(PL-RW-DC和PL-NR)的实际输出与模拟输出之间的偏差相对较大。但有两种方法(PL-RW-DC和PL-NR)的实际输出与模拟输出之间的偏差相对较大。

三种方法学习后的MSE如表1所示。

由表1可计算出实际输出与三种模型输出之间的均方误差(MSE),根据实际输出与三种方法输出之间的均方误差,PL-RW-IEC方法比其他两种方法最准确。

从图7和表1可以得出结论,PLRW-IEC方法通过区分内部冲突和外部冲突来考虑可靠性和权重,可以保证IFBRBSs的精度。从得到的MSE来看,经医学专家评价的PL-RW-IEC方法的模拟输出量较小,适合实际应用使用。

 

6.结论

本文的目的是为了提高 IFBRB 系统的精度,对 IFBRBSs 的五种参数进行了考虑,提出了一种 PL-RW-IEC 的学习方法。本学习方法(PL-RW-IEC)的不同之处在于对可靠性和权重进行了区分,将它们作为证据的两种不同属性,分别通过内部冲突和外部冲突进行计算。

与其他两种方法(PL-RW-DC)和(PL-NR)相比,所提出的方法得到的结果最为准确。在PL-RW-DC方法中,可靠性和权重是利用Dempster冲突计算的,本质上,它并不区分可靠性和权重。在PL-NR方法中,只考虑权重,忽略可靠性。经过三种参数学习方法的比较,PL-RW-IEC方法的MSE最小。

【论文阅读】The Evidential Reasoning Approach to Medical Diagnosis using Intuitionistic Fuzzy Dempster-Shafer Theory

【论文阅读】The Evidential Reasoning Approach to Medical Diagnosis using Intuitionistic Fuzzy Dempster-Shafer Theory

DIO:10.1080/18756891.2014.964009

期刊:International Journal of Computational Intelligence Systems

作者:王燕妮(北京理工大学自动化学院)、 戴亚平、陈玉旺

年份:2014

引用:Wang Y , Dai Y , Chen Y W , et al. The Evidential Reasoning Approach to Medical Diagnosis using Intuitionistic Fuzzy Dempster-Shafer Theory[J]. International Journal of Computational Intelligence Systems, 2014.

 

针对使用离散的模糊集和传统的匹配度方法存在一定的信息损失的问题,于是提出一种新的证据结构来减少信息损失。本文提出的直觉模糊证据推理(IFER)方法,将直觉梯形模糊数( 语言值用直观的梯形模糊数表示 )和包含度量(包容度量法用于确定输入与前代属性之间的匹配度)结合起来,提高了表示和推理的准确性。

直觉模糊证据推理(IFER)方法的过程总结为:对于一个输入数据,利用直觉梯形模糊包含度量法确定规则中输入与前件参考值之间的匹配度;再根据匹配度,计算出直觉主义模糊置信度和激活权重,并更新相应评估的区间置信度; 结合激活权重,将区间置信度转换为区间基本概率赋值(BPA) ;再通过求解非线性优化模型,将区间BPA组合成整体区间信念度(这是证据组合的过程);最后通过给区间信念度分配效用,对结果评估进行排序,取其中点可以得到结果。 这个推理模型主要取决于属性权重和置信度这两个参数。从本质上讲,IFER的关键步骤就是获得这两类参数。

 

直觉模糊推理理论进行医学诊断的证据推理方法

摘要:模糊Dempster-Shafer理论被扩展到概率和模糊不确定性下的领域知识模型。然而,使用离散的模糊集和传统的匹配度方法存在一定的信息损失,本研究旨在提供一种新的证据结构来减少信息损失。本文提出了一种新的直觉模糊证据推理(IFER)方法,将直觉梯形模糊数和包含度量结合起来,以提高表示和推理的准确性。

 

1.问题背景

Xu【2012-An introduction and survey of the evidential reasoning approach for multiple criteria decision analysis】总结了近年来证据理论ER方法的理论发展和应用,有将 DS 理论扩展为模糊 DS 理论(FDS)的趋势。FDS的证据推理算法可以分为三个步骤:建立模糊证据结构,结合证据,并根据排序后果进行决策。

不确定证据主要体现在以下几个方面:属性评估、属性权重、规则权重。在FDS理论的发展过程中,不确定证据可以用模糊集、区间数、模糊数来表示。相关的研究有:

  • 杨剑波【2006-Belief rule-base inference methodology using the evidential reasoning approach-RIMER】在传统的IF-THEN规则库中加入输入和输出的信念度,提出了基于规则的推理方法。在建立模糊证据结构的过程中,可以建立前因属性和后果之间的非线性关系。 在输入的变换中,采用Max-min运算来设定模糊集之间的匹配度。
  • Sevastianov等【2012-A framework for rule-base evidential reasoning in the interval setting applied to diagnosing type 2 diabetes】讨论了RIMER方法有两个限制。 其中之一是RIMER方法没有提供不同证据的组合方法。基本上,ER方法利用Dempster的组合规则来聚合属性,当证据结构由区间证据来表示时,现有的组合方法往往会因为对归一化过程处理不当而导致结构不合理。
  • 王应明【2006-The evidential reasoning approach for multiple attribute decision analysis using interval belief degrees】分析了区间数据运算,提出了区间信念度的非线性组合方法。
  • Guo等人【2007-Evidential reasoning based preference programming for multiple attribute decision analysis under uncertainty】处理了区间信念和区间权重,发展了增强型ER方法。
  • Aminravan等【2011-Evidential reasoning using extended fuzzy Dempster-Shafer theory for handling various facets of information deficiency】利用广义模糊集(即模糊集)中的一种,开发了模糊区间级和区间值信念度(IGIB)。在输入的变换过程中,采用Max-min运算来设定模糊集之间的匹配度。
  • Husain【2012-A study on the Role of Intuitionistic Fuzzy Set in Decision making problems】得出结论,直觉模糊集(IFSs)的概念可以看作是在传统模糊集不足以定义不精确信息的情况下的另一个广义模糊集。 通过将IFSs转换为区间模糊集(IVFSs),提出了对IFSs在证据理论方面的解释。介绍了对IFSs的运算,并在DS证据理论的框架下讨论了区间比较方法。
  • Wang等【2013-Intuitionistic fuzzy multi-criteria decision-making method based on evidential reasoning】将三角直觉式模糊数应用于模糊证据推理。因此,IFS可以用来表示那些非特定属性。 然而,在大多数情况下,输入属性和前置属性构成了语言知识的碎片。与处理离散模糊集时相比,使用模糊数我们可以最大程度地表示不确定性。此外,模糊集之间的最大-最小运算可能会导致大量的信息损失。

本文提出的直觉模糊证据推理(IFER)方法的目标是通过重建证据结构,以减少信息损失,更准确地提供不确定性下的语言知识基础上的表示和推理。实质上,它是对基本的RIMER方法的扩展。所提出的IFER方法的主要改进涉及两个方面:一方面,知识的表示采用连续模糊数(直觉型梯形模糊数,ITFN)代替传统的离散模糊集。另一方面,匹配度方法采用包含度量而不是 max-min 运算,以避免极端值的影响。

 

2.直觉模糊集理论

假设 A 是一个定义在实数R空间中的直观梯形模糊数(ITFN),

隶属函数为: 非隶属函数为:

其中参数a1,a2,a3,a4,b1,b2,b3,b4∈R,并且满足 b1≤a1≤b2≤a2≤a3≤b3≤a4≤b4。ITFN则表示为 A=(a1,a2,a3,a4),(b1,b2,b3,b4)。

ITFN被转换为区间值直观模糊集(IVIFS): ,其中

 

本文提出了一种直观的模糊证据推理(IFER)方法进行推理。 IFER的流程图如图所示。

 

3.直觉模糊推理(IFER)

3.1 证据结构

假设用 m(A)(Yes),m(A)(No),m(A)(Yes,No) 三者表示基本赋值函数的焦点元素,和为1。

设 Φ={φ1,φ2,--,φT } 是一组集体穷举且相互排斥的假设,它被称为判别框架。对所有属性的评估等级为 T,前置属性的参考值 是 Φ 的任意子集,直觉式模糊结构表示为:

信念区间 ,直觉主义模糊假设 A 的信念和可信度定义:

 

3.2 个体匹配度和直觉模糊置信度

前件属性 的直觉模糊置信度计算为:

  • 表示输入评估 的隶属函数;
  • 表示输入评估 的非隶属函数;
  • 表示前件评估 的隶属函数;
  • 表示前件评估 的非隶属函数;

其中,基于包含测度的直觉模糊匹配函数的计算方法为:

 

3.3 属性权重和激活权重的计算

可信度因子的分配方式与权重分配方式相同,在本研究中,采用同样的方法,属性权重用CFk1,CFk2,--,CFkTk表示.属性权重的归一化函数计算方法如

第 k 个规则的激活权重为:

,其中

 

3.4 更新为区间置信度

由专家给出 N 个后件属性初始的置信度 ,……, ,然后用上面公式更新。也就是:

更新为:

 

3.5 转换为区间基本概率值

获得区间信念度后,需要考虑相对权重将其转换为区间基本概率质量BPA:

如果评估 是不完整的,不完整的原因有两个方面

  • 一是由于权重不完全造成的,即

  • 另一个是由不完全置信度引起的,即 。其中

    • 隶属函数的不完整置信度为
    • 非隶属函数的不完整置信度为

正因为如此,DS理论可以处理在其他情况下被忽略的不完全信息。

通过求解以下非线性优化模型,将区间概率质量组合成整体区间信念度:

 

3.6 输出预估结果

对于组合分布评估,ER方法通常使用期望效用对它们排序:

  • 是结果评估Dn的等级效用;
  • 是指如果输入激活前件 Aij,Dn是结果评估的置信度;

如果结果 DN 被分配到最喜欢的评估等级, 达到最大值。如果后续D1被分配到最不喜欢的评估等级,达到最小。而最大-最小效用则是利用非线性优化模型计算的。用预期效用区间的中点对所有结果进行排序。

 

3.7 推理方法的具体步骤

本文的 IFER 推理方法的执行步骤为:

  • Step1:利用直觉梯形模糊包含度量法确定规则中输入与前件参考值之间的匹配度:

     

  • Step2:根据匹配度,确定直觉主义模糊置信度

     

  • Step3:将传统规则中的结果评估的单值置信度更新为区间置信度,也就是:

    更新为:

    其中,

     

  • Step4:以确定性因子(CF)为相对属性权重,结合属性权重、规则权重、匹配度计算规则的激活权重

    第 i 个属性权重:

    第 k 个规则的激活权重:,其中

     

  • step5:结合激活权重,将区间置信度转换为区间基本概率赋值(BPA)

    ,其中

 

  • Step6:通过求解非线性优化模型,将区间BPA组合成整体区间信念度(证据组合)

 

  • Step6:通过给区间信念度分配效用,对结果评估进行排序。通过预期效用区间的中点可以得到结果。

 

 

4.案例研究

4.1 案例介绍

患者的信息可以作为输入,用直观模糊数(intuitionisitc trapezoidal fuzzy numbers,ITFN)表示。利用ITFN对语言值进行量化。语言值与ITFN的对应关系由决策者的经验决定。有九个等级。低级对应相对较小的模糊数,高级对应大的模糊数。

每一个 ITFN 都是由八个实数组成,这在第 2 节有所介绍,ITFN则表示为 A=<(a1,a2,a3,a4),(b1,b2,b3,b4)>,并且满足 b1≤a1≤b2≤a2≤a3≤b3≤a4≤b4。

北京大学第三医院有一个脑卒中诊断的知识库。病人的四个特征当做前件属性:日常生活活动、痉挛、肌肉强度、肌肉张力。脑卒中患者有三个后果:弛缓麻痹期、痉挛期、疗养期。规则数量为52条【本文附录A.1】。 R1-R24是关于弛缓性瘫痪期。R25-R28是关于痉挛期。R29-R52是关于疗养期。

有一个病人杰克,他的四项特征评估为:日常生活活动(ADL)(高,10%;中,60%;低,30%),痉挛(相当低,10%;低,85%;非常低,5%),肌肉力量(很高,15%;高,75%;相当高10%),肌肉张力(相当高,20%;相当低,45%;低,35%)。将四个前件属性的语言值转化为直观的梯形模糊数。

决策人给出可能的结果置信度。在决策前,根据决策者的经验对结果信念度的信息进行评估。 也可根据决策者的主观判断。将确定性因素作为属性权重处理。

 

4.2 实验步骤

直观模糊证据推理算法实现如下。

  • Step1:利用3.2节公式计算输入评估和前置评估的匹配度 。 痉挛期的规则R25-R28的包含度量如表所示:

  • Step2:根据匹配度,利用3.2节确定前因属性的直觉模糊信念度

  • step3:利用3.4节将置信规则Rk的结果评估更新为{(D1,[β1kμ ,β1kν ]),(D2,[β2kμ ,β2kν ]),--,(DN,[ βNkμ ,βNkν ])}。更新后的结果评估的信念度(R1 - R24)如 "表3 "所示

  • Step4:利用3.3节介绍计算属性权重的归一化函数和规则权重 。给区间信念度分配相对权重。

  • Step5:利用3.5节计算得到区间基本概率赋值(BPA)。将区间基本概率分配(BPA)组合成整体的区间信念度,对非线性优化模型进行求解。这些结果如 "表4 "所示。

  • 步骤6:利用 3.6节,对区间信念度的效用进行排序。 由期望效用区间的中点 可以得到结果。 从 "表 5. "中可以看出,患者杰克的特征属于疗养期。

 

4.3 敏感性分析

从 "图2. "中可以看出:前件属性日常生活活动(ADL)的权重随着数值(0.0,0.1,----,1.0)的变化而变化。弛缓性瘫痪期的预期效用变化很大。因为ADL这个属性对弛缓性瘫痪期至关重要。 痉挛期对属性ADL的权重变化不敏感,正是因为前件属性痉挛对痉挛期至关重要。 但是,从 "图2. "中可以看出,属性ADL对于疗养期也是至关重要的,因为在康复期,脑卒中患者的ADL能力也被作为脑卒中患者生活质量的重要评价。

 

4.4 包含度量与max-min方法比较分析

从 "图3. "中可以看出,当属性的成员资格为极端点R2和R8时,使用max-min操作的匹配度获得极端值0。在R5和R6这两个点上,匹配度达到峰值。在R5和R6点,匹配度达到了峰值,使用max-min运算的峰值大小比使用包含度量的峰值大。而且,使用max-min运算的曲线波动范围比使用包含度量的曲线要大。 可以得出结论,使用max-min运算时,极值对获得的匹配度影响较大。在某些情况下,这可能会导致不准确的结果。

 

5.结论

直觉模糊证据推理(IFER)作为传统模糊DS理论的有趣扩展而产生。IFER是带有语言输入的RIMER的一种特殊情况。在RIMER的基础上,IFER中输入的类型采用了不同的匹配度方法。语言值用直观的梯形模糊数表示。 包容度量法用于确定输入与前代属性之间的匹配度。 对于一个输入的数据,如果规则的激活权重大于零,则相应的规则成为激活规则。对于被激活的规则,根据匹配度更新相应评估的信念度。推理模型主要取决于属性权重和信念度这两个参数。从本质上讲,IFER的关键步骤就是获得这两类参数。 通过敏感性分析,IFER的结果会随着参数的变化而改变。决策系统能否得出准确的结果,主要取决于参数的优化学习。

【论文阅读】 Structure learning for belief rule base expert system A comparative study

【论文阅读】 Structure learning for belief rule base expert system: A comparative study

DIO: 10.1016/j.knosys.2012.10.016

作者:常雷雷、zhouyu、姜江

年份:2013年

 

BRB系统的结构学习:比较研究

当BRB中的前件属性太多或前件属性有太多引用值时,就会出现组合爆炸问题。目前大多数方法是减少前件属性的引用值数量。本文则是研究减少属性个数。

本文提出了一种基于灰色目标(GT)、多维标度(MDS)、Isomap和主成分分析(PCA)的结构学习方法,分别命名为 GT–RIMER 、 MDS–RIMER 、 Isomap–RIMER 和 PCA–RIMER 。

 

1.介绍

目前解决组合爆炸问题的常用手段是减少前件属性引用值数量:Zhou[18,19]利用隐马尔科夫链对环境变量与可观测变量之间的相关性进行建模,并在此基础上提出了参数学习方法。Jiang[16]提出了证据网络(EN)的参数模型,其中将条件信念函数(CBF)与BRB模型相结合,并在EN框架下进行了参数学习研究。Tsai[20,21]提出了一种存在概念漂移的规则挖掘算法。Zhou[18,19]提出了“统计效用”的概念,通过设置“统计效用”的阀值来确定是否应该保留规则。Yang[27]提出了第一个通用的BRB学习框架和一个用于训练BRB系统的优化模型。Xu[14]还提出了BRB系统的培训方法,并将其应用于管道泄漏检测案例研究。Zhou[31,32]提出了一种在线更新BRB方法,该方法不需要在训练BRB之前收集完整的数据集。

本文使用如下数据降维中的特征选择手段,实现前件属性的减少:

  • the Grey Target (GT) theory 灰色目标理论方法
  • the Multidimensional Scaling (MDS) 多维尺度分析方法
  • the Isomap
  • the Principal Component Analysis (PCA) 主成分分析方法

 

2.BRB组合爆炸问题

当构造BRB时,需要覆盖每个属性的每个引用值的所有组合。

假设有M 个属性,第 i 个属性有 Ji 个引用值。那么会有 规则。这是一个组合爆炸问题:BRB的大小将随着每个属性的引用值的增加呈指数级增长。

事实上,在评估对象时也没有必要考虑所有属性。只有关键属性是不可或缺的。例如,影响战斗机或潜艇性能的参数有数百个,其中只有某些参数对其整体性能评估至关重要,称为关键性能参数。

 

3.灰关联分析方法

3.1 灰色系统理论的产生和发展

1982我国学者邓聚龙教授发表第一篇中文论文《灰色控制系统》标志着灰色系统这一学科诞生。1985灰色系统研究会成立,灰色系统相关研究迅速发展。

灰色系统的应用范畴大致分为以下几方面:灰色关联分析、灰色预测、灰色决策、灰色预测控制。

灰色系统、白色系统与黑色系统:将信息完全明确的系统称为白色系统,信息未知的系统称为黑色系统,部分信息明确、部分信息不明确的系统称为灰色系统。

灰色系统与模糊数学:灰色系统着重外延明确、内涵不明确的对象,模糊数学着重外延不明确、内涵明确的对象。

灰色系统与黑箱:黑箱方法着重系统外部行为数据的处理方法,是扬外延而弃内涵的处理方法,而灰色系统方法是外延内涵均注重的方法。

 

3.2 灰关联分析方法的步骤

step1:确定参考序列 和比较序列

step2:对原始数据变换,将第 i 个属性的第 k 个数据 转换为 。方法有

  • 初值变换:
  • 均值变换:
  • 百分比变换(变换成小于1的数): .
  • 倍数变换(变换成大于1的数): .
  • 归一化变换: .
  • 区间变换: .

step3:求绝对差序列,即比较序列与参考序列的差值

step4:使用下面公式计算灰关联系数,,一般取分辨系数ρ=0.5。

step5:使用下面公式计算灰关联度, ,wk为第k条数据权重。

step6:得到关键属性

  • 如果参考序列 为最优值数据列,那么灰关联度 越大,则第 i 个属性越好;
  • 如果参考序列 为最劣值数据列,那么灰关联度 越大,则第 i 个属性越不好;

 

 

3.3 灰关联分析方法例子

请用灰关联分析的方法分析影响城市大气污染的各主要因素。下表是1999-2003年某城市大气污染监测数据:

因素\年份19992000200120022003
大气污染值0.7320.6460.6360.5980.627
NO20.0380.0310.0420.0360.043
TSP0.5070.4510.4480.4110.122
SO20.0480.0340.0300.0300.031
工业总产值183.25207.28240.98290.80370.00
基建投资24.0344.9862.7983.44127.22
机动车数量855087431385966100554109804
煤炭用量175.87175.72183.69277.11521.26
沙尘天数10131311

step1:将大气污染值作为参考序列 x0,其他各因素作为比较因素序列 xk。

step2:对各因素初值化处理,得各标准化序列 y(k)。这里使用初值变化,即将每列数据除以第一列, ,得到下表

因素19992000200120022003
大气污染值10.8830.8690.8170.857
NO210.8161.1050.9471.132
TSP10.8900.8840.8110.241
SO210.7080.6250.6250.646
工业总产值11.1311.3151.5872.019
基建投资11.8722.6133.4725.294
机动车数量10.8691.0051.1761.284
煤炭用量10.9991.0441.5762.964
沙尘天数11.3001.3000.1000.100

step3:求绝对差序列,即比较序列与参考序列的差值

step4:计算灰关联系数

step5:计算灰关联度

step6:选取关键属性。

 

4.多维尺度分析方法

4.1 多维尺度分析方法的介绍

多维尺度分析方法(Multidimensional Scaling,MDS)是一种非监督的维数约简方法。其基本思想:约简后低维空间中任意两点间的距离应该与它们在原高维空间中的距离相同。MDS方法的示意图:

MDS的求解:通过适当定义准则函数来体现在低维空间中对高维距离的重建误差,对准则函数用梯度下降法求解,对于某些特殊的距离可以推导出解析解法。

 

4.2 多维尺度分析方法要素

不妨假设原始数据为高维空间中的N 个对象 [x1,x2,...,xN] ,MDS的目标就是找到低维空间的 N 个对象 [Y1,Y2,...,YN] ,使得“

表示高维空间中第 i 个对象与第 j 个对象的距离; 表示低维空间中第 i 个对象与第 j 个对象的距离;显然, MDS算法核心点就是样本在低维空间的距离和在高维空间中的样本间的相似性尽可能的保持一致。

 

5.主成分分析方法

5.1 协方差矩阵

假设有 T 组输入数据 ,每组数据都有 n 个维度 ,那么该数据 X 的协方差矩阵为:

其中 就是第 i 维数据和第 j 维数据的协方差:

协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,比如其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

如何构造数据 构造协方差矩阵,可以使用上面的公式求出所有的 。但这里要介绍更好的方法,先对矩阵 进行零均值化,即每维特征的数据都减去本维的均值,得到零均值化矩阵 ;那么协方差矩阵刚好就为 ,(PS:这里除或不除样本数量m或m-1,其实对求出的特征向量没有影响),推导见下方:

 

5.2 奇异值分解

特征值分解最大的问题是只能针对方阵,而奇异值分解是一个能适用于任意矩阵的一种分解的方法。

对于m×n阶矩阵 A 总是能分解为

  • U 是由 的特征向量组成的 m×m 矩阵(特征向量按照特征值从大到小的顺序排列);
  • V 是由 的特征向量组成的 n×n 矩阵(特征向量按照特征值从大到小的顺序排列);
  • Σ 是由 的特征值的平方根组成的 m×n 对角矩阵,除了对角线其它元素都为0,而且对角线上的元素称为奇异值,按从大到小的顺序排列 ;

 

5.3 PCA算法步骤

使用PCA算法将 n 维的数据 X 降维成 k 维的数据 Y 的步骤为:

1)将 m条n维的数据表示为矩阵 ,注意这里习惯上使用列向量表示一条记录。比如3条2维数据

2)将X的每一维进行零均值化,即减去这一维的均值,得到零均值化矩阵

3)求得矩阵 X 的协方差矩阵为

4)分解协方差矩阵,分解的方法可以用基于特征值分解协方差矩阵基于SVD分解协方差矩阵

5)选择特征值中最大的 k 个。然后将其对应的k个特征向量分别作为行向量组成特征向量矩阵P。其中 k 的取值可以根据公式 确定。此外矩阵P的形式为 img u1 是主特征向量(对应最大的特征值),u2是次特征向量。

6)将数据转换到k个特征向量构建的新空间中,即

 

 

6.ISOMAP算法

6.1 流行学习

ISOMAP是‘流形学习’中的一个经典算法。

流形学习应该算是个大课题了,它的基本思想就是在高维空间中发现低维结构。

经典的降维技术有主成分分析(PAC)和多维尺度分析(MDS)。其中PCA的基本思想是通过线性变换尽可能地保留方差大的数据量。而MDS基本思想是在低维嵌入空间中尽量保持原始数据任意两点之间的欧式距离。但是,对于包含非线性结构的数据集而言,这两种方法往往是无效的。

比如这个图,这些点都处于一个三维空间里,但我们人一看就知道它像一块卷起来的布。

在这里使用MDS方法将失效,因为图中圈出来的两个点更合理的距离是图中蓝色实线标注的距离,而不是两个点之间的欧式距离(图中蓝色虚线)。

PCA降维方法也无法用于这样卷曲的结构,因为PCA是典型的线性降维,而图示的结构显然是非线性的,用PCA降维的结果就会一团乱麻,没法很好的反映点之间的关系。

而流形学习在这样的场景就会有很好的效果。

 

6.2 ISOMAP算法步骤

ISOMAP算法感觉和MDS很像,但是经过上一节的分析可知不能再简单的用点与点的欧式距离来变换了,这里使用 测地距离:直接计算邻近点之间的欧式空间距离。即沿着蓝色实线条展开。

ISOMAP算法如下:

步骤1:构建邻接图G。基于输入空间X中流形G上的的邻近点对 i,j 之间的欧式距离,选取每个样本点距离最近的K个点(K-Isomap)或在样本点选定半径为常数ε的圆内所有点为该样本点的近邻点,将这些邻近点用边连接,将流形G构建为一个反映邻近关系的带权流通图G;

步骤2:计算所有点对之间的最短路径。通过计算邻接图G上任意两点之间的最短路径逼近流形上的测地距离矩阵,最短路径的实现以Floyd或者Dijkstra算法为主。

步骤3:构建k维坐标向量。根据图距离矩阵使用经典MDS算法在d维空间中构造数据的嵌入坐标表示,选择低维空间的任意两个嵌入坐标向量yi与yj使得代价函数最小:

将6.1节的三维图展开,降维成二维图如下所示:

 

7.构造置信规则库的学习算法

本文提出的构造置信规则库的学习算法步骤为:

step1:确定BRB的前件属性及其引用值、评价结果及其效用值;

step2:分布使用 GT、MDS、ISOMAP、PCA提取出关键属性;

step3:根据所选的属性构造一个新的BRB系统;

step4:训练模型。

 

8.案例研究

(1)问题背景

该案例研究的目标是评估具有“空对地联合闪电战”任务的装甲系统的整体能力。

有五个前件属性:指挥和控制(C2)、机动性、火力、防御和通信(comm)。每个前件属性皆是三个引用值“强(A)”、“中(B)”、“低(C)”。由于有5个属性和3个引用值,因此BRB的大小为3^5=243.

各属性的引用值的设置:{(C2 = (A, 0.8), (B, 0.2)), (mobility = (A, 0.7), (B, 0.3)), (firepower = (A,0.9), (B, 0.1)),(defense = (A,0.6), (B, 0.4)),(Comm = (A,0.7), (B, 0.3))}

输入数据:(这些数据是构造出来的,不是来自真实数据)

 

(2)GT方法

选取灰关联度最大的前三个属性

 

(3)MDS方法

将这31个对象由五维空间转为二维空间表示:

 

(4)Isomap 方法

将这31个对象由五维空间转为三维空间表示:

 

(5)PCA方法

求协方差矩阵的特征值,选取前 3 个最大的特征值,即从五维降为三维。

 

(6)结果分析

……

PCA在不同程度上优于MDS和GT,而PCA选择了与Isomap相同的关键能力。相对而言,GT表现出不太令人满意的性能,因为当对问题的性质理解很少的时候,GT可能非常不精确。

 

 

 

 

【论文阅读】Akaike Information Criterion-based Objective for Belief Rule Base Optimization

【论文阅读】 Akaike Information Criterion-based Objective for Belief Rule Base Optimization

DOI:10.1109/IHMSC.2016.83

作者:常雷雷等

年份:2016年

 

本文提出了使用赤池信息准则(AIC)建立的优化模型目标函数,可同时衡量模型的结构复杂度和模型参数准确率,从而建立一个既精确又精简的BRB模型。

这里的模型结构复杂度其实是说模型的参数个数,一定程度上,可以认为基于AIC的目标函数其实是比传统目标函数多考虑了模型的参数个数。

 

 

使用基于AIC的目标函数实现对BRB结构和参数双优化

目前大部分优化都是针对提升BRB的精度,没有考虑优化BRB复杂性的。这很可能导致构建一个即非常精确又非常复杂的结构。

本文以AIC代替传统的均方误差作为建模目标,AIC即能衡量BRB模型的准确性,又能衡量BRB系统的复杂性。目标是建立一个既精确又精简的BRB模型。

 

1.BRB模型的挑战

非线性建模的一个基本问题是对精度和复杂性的追求。通常情况下,所构建模型的维数(通常用参数个数表示)与模型的精度和复杂性直接相关。模型的维数越多,模型的精度越高,模型的复杂性越高总之,这两个目标是相互冲突的:更高的准确性会导致更多的复杂性,反之亦然。

目前的研究中多数是采用均方误差作为优化模型的目标,但是均方误差只训练模型的准确率。

 

2.Akaike 信息准则(AIC)

AIC即 Akaike 信息准则,于1974年由 Akaike 首次提出。AIC建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

在一般的情况下,AIC可以表示为:

其中N是参数的数量,L(θ)是似然函数。它的核心思路是:参数数量N意味着模型的复杂度,N越小,AIC值越小,模型越好。似然函数L(θ)意味着模型的精确度,L(θ)越大,AIC值越小,模型越好。

 

3.基于AIC的BRB优化模型的目标函数

(1)传统的目标函数

传统的BRB优化模型的目标函数是使用均方误差(MSE)

也就是实际结果与估计结果的误差,只能对模型的参数起优化作用。

(2)基于AIC的目标函数

假设训练数据集中有T组数据, ,BRB模型的参数向量为V,估计值和真实值的误差为ε,那么BRB模型可以表示为:。假设误差满足正态分布 ,那么就有 …………,最终推导可得:

综上所述,基于AIC的BRB优化模型的目标函数由两部分组成,第一部分由模型中参数个数决定,是对模型结构的优化;第二部分由实际结果与估计结果的误差决定,是对模型的参数优化。

由这个函数,可以发现模型参数尽可能少,模型精度尽可能高,这就是我们要找的模型。但是冲突在于,一个精确度越高的函数,不可避免会有越多的参数。

因此也就是说,AIC函数其实是在模型参数和模型精确度间找一个平衡。

(3)两个目标函数的差别

一定程度上理解,基于AIC的目标函数比传统的目标函数多考虑了模型的参数个数。

 

4.基于AIC的BRB优化模型和算法

上节介绍了基于AIC的优化模型的目标函数,那么完整的优化模型如下:

可以看出,前件属性的引用值时动态的。

使用差分进化算法(DE)对该模型进行优化,优化算法的步骤为:

step1:设置差分进化算法所需参数,包括种群大小、进化代数、突破因子、交叉因子、停止条件

step2:初始化种群,即初始化BRB系统参数(前件属性引用值、规则权重、后件属性置信度)和规则数量 n。

step3:突破和交叉产生新个体。

step4:计算新个体的适应度。将新个体即新参数带入到BRB系统,经过ER推理得到估计输出,再根据公式计算得到AIC值。

step5:根据适应度函数(AIC函数),选择合适个体。也就在这一步开始不一样,这里把模型的参数个数也考虑进来了,同实际值和估计值误差一起用来评估模型的适应度。

step6:满足停止条件时停止算法。

 

5.案例研究

使用BRB系统拟合下面函数:

设后件属性引用值:

训练/测试数据集是从区间[- 5,5]中统一采样101组数据。

本实验尝试了从3条规则BRB模型、4条规则的BRB模型、……到10条规则的BRB模型,发现有5条规则的BRB模型取得最好效果。这意味着有五条规则的BRB处于最佳结构。

如何理解傅里叶变换公式[转]

 

如何理解傅里叶变换公式

什么是傅里叶变换?

以前学习电磁场的时候选讲了调频广播的内容。各个电台发射各个频率的电波,比如fm103.1啊fm90.5啊,这个数字就是频率,这些频率在空中混在一起,彼此纠缠。手中的收音机其实是能听到各个频率的声音,但是每个台都听不清楚。你调整你收音机的这个动作叫调频,就是调整接收频率的意思。把其他频率的声音过滤掉。只听你想要的频率。然后他给我画了一张图。大概就是这个意思。

阅读全文 »

【论文阅读】Reliability Assessment Model for Industrial Control System Based on Belief Rule Base

【论文阅读】Reliability Assessment Model for Industrial Control System Based on Belief Rule Base

DIO:10.15837/ijccc.2019.3.3548

期刊:INTERNATIONAL JOURNAL OF COMPUTERS COMMUNICATIONS CONTROL 国际计算机通信与控制杂志

作者:第一作者Yuhe Wang,通讯作者乔佩利(哈尔滨理工大学计算机科学与技术学院,担任院长)、罗智勇(哈尔滨理工大学)、孙广路 (哈尔滨理工大学) 、王广泽(哈尔滨理工大学)

年份:2019

引用:Wang Y , Qiao P , Luo Z , et al. Reliability Assessment Model for Industrial Control System Based on Belief Rule Base[J]. International Journal of Computers, Communications & Control (IJCCC), 2019, 14(3):419-436.

 

本文提出了一种用于评估工业控制系统(ICS)的可靠性问题的方法。实现逻辑大致是:

  • 首先,采用证据推理(ER)规则对定性信息(语言型)和定量信息(数值型)进行合成。 ICS可靠性评估必须同时考虑定量数据(数值型数据,如系统持续时间、故障频率和PLC容错率)和定性数据(语言型数据,如终端可控性、通信稳定性)。 前者可以通过数据监控系统收集,后者则需要专家解读。如果这两类数据是不确定的,就无法准确评估ICS的可靠性。
  • 然后,用合成后的数据建立了基于置信规则库(BRB) 的可靠性评估模型;
  • 最后,使用协方差矩阵自适应演化策略(CMA-ES)算法对 BRB 模型参数进行优化。在【2019,贺维,Fault Prediction Method for Wireless Sensor Network Based on Evidential Reasoning and Belief-Rule-Base】一文中,使用P-CMA-ES(投影协方差矩阵自适应进化策略)算法对 BRB 模型进行优化。

 

 

基于BRB的工业控制系统可靠性评估模型

摘要:本文建立了一种新型的工业控制系统(ICS)可靠性评估方法。首先,采用证据推理(ER)规则对定性和定量信息进行合成。在此基础上,建立了基于置信规则库(BRB) 的工业控制系统(ICS)可靠性评估模型。这样,在评价中充分利用了专家的经验和历史数据。该模型由故障评估模型和安全评估模型两部分组成。此外,采用协方差矩阵自适应演化策略(CMA-ES)算法对初始参数进行优化,使提出的模型更符合实际情况。 最后,通过案例分析,将所提出的模型与其他两种流行的预测方法进行了比较。

 

1.介绍

现有的ICS可靠性评估方法主要基于知识、模型或数据[18]。

  • 基于知识的方法包括故障模式、效应和临界性分析(FMECA)[10]、故障树[8]、决策树[1]和风险分析[15]。这些方法主要依靠定性或定量的知识。
  • 基于模型的方法,即开开关故障诊断[20]、基于信号的编码[11]和处理故障诊断[12],可以根据实际工业过程对不同系统的故障进行诊断。但是,对于大规模的ICS,很难建立有效的模型。
  • 由于分布式控制系统(DCS)和监督控制与数据采集(SCADA)等工业数据采集技术的普及,基于数据的方法应运而生。依靠历史过程数据,许多基于数据库的方法适用于ICS的故障检测,如Shewart个体控制图[5]、Hotelling的T平方控制图[2]、质量控制图[17]、主成分分析(PCA)[16]和数据库中的知识发现(KDD)[19]等。

上述每一种方法都有其缺陷。对于知识型方法,由于ICS的复杂性和众多因素,专家往往无法获得准确的定性知识[13]。基于模型的方法严重依赖具体的样本,不容易推广到一般的案例,它们也不能使用定性或定量数据。数据驱动方法在准确数据样本的可靠性评估方面效果良好,但在区分正常数据和异常数据方面表现不佳[14]。更糟糕的是,ICS数据在一定条件下无法获取。综上所述,现有的方法不能有效利用ICS中的各种不确定信息,包括专家知识和历史数据。当务之急是开发一种针对这些半定量数据的工业控制系统(ICS)可靠性评估方法。

为了解决上述问题,本文通过证据推理(ER)规则对定性和定量信息进行整合,然后建立了基于 BRB 的工业控制系统可靠性评估模型,该模型是一种针对不确定性问题的非线性策略,这样在评估中充分运用了专家经验和历史数据。最后,通过协方差矩阵自适应性进化策略(CMA-ES)算法对初始参数进行优化。

 

2.问题概述

2.1工业控制系统(ICS)结构

image.png

将SCADA视为一个典型的ICS,SCADA的结构如图1所示[21]。 在控制中心,有一个人机界面(HMI)、一个工程工作站、一个数据历史器、一个主终端单元(MTU)和一个通信路由器。所有这些组件都通过局域网(LAN)连接。其中,HMI主要显示从现场采集的数据,MTU则存储和处理输入和输出数据。在广域网中,信息通过电力线、无线电、微波、蜂窝或卫星在控制中心和现场站点之间传输。在现场现场,有多个分布式远程终端单元(RTU)或可编程逻辑控制器(PLC),控制本地过程。ICS可以收集各种数据,分析趋势,当参数超过允许范围时,发出报警。

根据SCADA的发展历程,ICS的主要组成部分可分为三类,如表1所示[3]。

 

2.2ICS的可靠性评估框架

ICS可靠性评估的准确性取决于对各种影响因素的明确识别。实际上,这些因素可以分为内部因素和外部因素。如表1所示,内部因素是指系统部件的故障,包括软件故障、硬件故障和通信故障,而外部因素包括网络攻击和人为错误,这两个因素都直接影响到系统的安全性。如图2所示,可以从系统的故障和安全两方面评估ICS的可靠性。

在此基础上,构建了ICS可靠性评估框架。如图3所示,该框架由三层组成:目标层、标准层和计划层。目标层是可靠性评估;标准层包含故障评估和安全评估;计划层包含影响标准层的各种前置属性。

整个评估过程为:首先,通过ER规则对ICS的故障和安全属性进行合成,进行故障和安全分析。根据分析结果,采用BRB建立模型,采用CMA-ES进行训练。最后,得到ICS可靠性评估模型。具体步骤如下图4所示。

 

2.3问题的数字描述

假设用 FA、SC 和 FR 分别表示ICS可靠性评估的故障评估结果、安全评估结果和最终结果。故障评估和安全评估的前件属性集分别表示为 ,其中 分别表示用于故障评估和安全评估的第i个前因属性。

那么,故障评估结果和安全评估结果可以分别通过以下方式得到

其中, 为主导属性与故障评估结果的关系; 的参数集; 为主导属性与安全评估结果的关系; 的参数集。在此基础上,结合故障评估结果和安全评估结果,可以得到基于BRB的ICS可靠性评估结果:

其中 为故障和安全评估结果向可靠性评估结果的转换; 为一组参数。

 

3.用证据推理合成数据

3.1 故障评估属性

可靠性是指在规定的时间内和规定的条件下执行规定功能而不发生故障的能力或可能性。系统的可靠性可以用平均修复时间、故障率和平均故障时间来评价[22]。 在我们的ICS可靠性评估框架中,故障评估包括三个方面。表2列出了详细故障评估的前件属性以及每个前件属性的权重。

image1b2978a6a00a3aa3.png

 

3.2 安全评估属性

ICS的安全部分受到网络攻击的影响。常见的攻击包括病毒和木马攻击、DoS攻击、检测攻击、U2R攻击和R2L攻击。具体来说,病毒和木马攻击用恶意程序破坏ICS或窃取系统数据;DoS消耗过多的ICS资源,使服务不可用;检测攻击对ICS网络进行扫描,解除安全隐患;U2R攻击通过操纵ICS的漏洞获取ICS超级用户的权限;R2L攻击远程获取对ICS的非授权访问。不同的攻击对ICS构成了不同程度的威胁,给ICS带来了多样化的破坏。因此,选取攻击类型、连续攻击时间、攻击频率和攻击严重程度作为安全评估的前置属性。

ICS的安全性还受到人为错误的影响,如误操作、非授权进入等。 因此,这类错误的发生频率和严重程度也被作为安全评估的先行属性。

表3列出了安全评估的所有先行属性以及属性权重。

imagebbd85206b7d9ff03.png

 

3.3 证据推理的合成过程

ER规则是在信念决策和D-S理论的基础上发展起来的一种多标准决策分析(MCDA)方法[22]。与D-S证据理论相比,ER规则的计算过程是线性的。ER规则可以通过以下步骤实现。

假设有 M 个前件属性 ,然后对应的属性权重表示为 ,设置每个前件属性有 N 个评估等级,第 i 个属性的第 j 个的评估等级表示为 。输入数据中第 i 个属性值表示为 ,那么第 i 个属性的第 j 个评估等级的置信度转换公式为:

ER规则可以说是一个属性融合的过程。根据ICS上的原始数据,将各种属性进行混合,然后部分分配到第三层。 然后,应根据第三层属性确定第二层属性的评估等级,根据第二层属性确定第一层属性的评估等级。 最后,通过ER规则将三层的属性再次整合,得出最终的ICS评估结果。整个ER合成过程分为如下三步:

第一步,将每个属性的每个评估等级的置信度转换为基本概率赋值。

  • 表示相对于第 i 个属性的第 j 个评估等级的基本概率质量;
  • 表示对于第 i 个属性的未分配给任何评估等级的基本概率质量,满足 .

 

第二步,将前 i 个前件属性的基本概率赋值通过如下ER公式进行递归的组合,得到 M 个前件属性对第 j 个评估等级的总的基本概率赋值。

 

第三步,将第 j 个评估等级的总的基本概率赋值转为总的置信度:

 

 

4.基于BRB的可靠性模型

4.1 BRB的规则

由于ICS的可靠性是故障和安全的结合,因此,通过ER规则融合的评估结果应根据安全评估结果和故障评估结果进行分级,然后将融合结果作为BRB模型的输入。然后,将融合后的结果作为BRB模型的输入。

如表4所示,故障评估结果FA、安全评估结果SC和最终结果FR的可靠性等级都设置为 5 个。

该可靠性模型中的规则的格式定义为:

BRB模型在初始情况下有25条规则。初始置信度是由专家经验和历史数据确定的,比如其中的R5、R10、R15、R20、R25这五条规则,就是根据:如果故障评估或安全评估是最差的(TW),则无法保证ICS中数据的准确性,即评估结果必须是最差的(TW)。如果故障评估或安全评估是最差的(TW),则无法保证ICS中数据的准确性,即评估结果必须是最差的(TW)。

20200807005804.png

 

4.2 BRB的推理过程

为了获得ICS的稳定性,采用ER法通过以下步骤得出BRB模型。

第1步,计算训练样本的前因属性与规则的匹配度:

第2步,根据匹配度计算第k条规则的权重:

第3步,对规则进行整合,通过第3.3章所述的ER的分析综合算法,生成不同的输出信念。

第4步:根据不同的输出信念,生成最终的输出结果:

 

5.用CMA-ES算法优化BRB的参数

5.1 参数优化模型

BRB参数训练的目标函数和约束条件可以表示为:

 

5.2 CMA-ES算法

L-CMA-ES的参数训练包括四个步骤:

第1步,参数初始化,其中每个参数的初始值由专家给出。

第2步,人口抽样。以中心解为解空间的中心期望值,生成正态分布人口为。

其中,g为当前的迭代次数;mean为中心期望;η为步长大小;C为种群的协方差矩阵。

第3步,筛选与重组。采用漏斗机制对解空间中的候选解进行筛选。得到满足约束条件的候选解后,根据自适应函数在种群中选择子种群的解。然后,种群中的中心期望向局部最优解移动,从而指导种群的进化。当得到前一个最优解种群ε时,新种群的期望值跟新为:

其中,ε表示为子种群数量;γ表示为子种群权重(总权重为1);μ表示为母种群的大小; 表示在第 g+1 次迭代中,根据自适应函数从母种群 μ 中得到第 i 个候选解。重组后,种群的中心区域将向子种群移动,这样的候选解比父种群更准确。

第4步,更新协方差矩阵。在下一次迭代中,需要根据协方差矩阵找到最优解。在迭代过程中,协方差矩阵的变换会随着种群椭圆分布长轴的长度和方向的变化而变化。方向的变化反映了进化的趋势和方向,而长度的变化则代表了种群搜索的范围。协方差矩阵的更新应通过:

其中:

反复执行上述公式,直到达到精度要求为止,然后输出最优解,作为训练后的模型参数。

 

6.案例研究

6.1 属性的评估等级

由于ICS的可靠性受到外部和内部因素的影响,本节设计了涉及内部故障和外部安全事件的仿真实验。实验在实际工业控制环境中进行。故障和事件均由专家根据经验选择和评定。其中有些是定量信息,有些是定性信息。内部故障和外部安全事件都根据实际情况分为四个等级(表5、表6)。

 

6.2 基于ER规则的内部和外部可靠性

利用表5-6中的属性和参考级别,通过ER算法对原始数据进行融合,融合过程详见第3节。最终笔者得到了30天时间中ICS的内部和外部的可靠性变化折线图(图7、图8)。

从图可以看出,ICS的内部可靠性波动剧烈,说明系统故障频率较高,而外部可靠性变化较小,反映了外部攻击频率适中。

 

6.3 模型构建

将本文所提出的方法(BRB)与两种预测模型进行了对比,即反向传播神经网络(BP)和马尔科夫预测模型(MM)。为了保持一致性,三种方法的初始参数均由CMA-ES算法训练。

反向传播神经网络(BP)是一种流行的基于数据的预测模型。该模型以高斯函数作为训练神经元,在中间层采用径向基函数核对输入参数进行非线性变换。 与传统的神经网络相比,由于中间层数量有限,BP具有规模小、运行速度快的特点。

马尔科夫预测模型(MM)是一种典型的基于贝叶斯决策理论的半定量评估模型。 它与提出的BRB模型高度相似。高准确度和高效率为它赢得了巨大的知名度。

表7列出了置信规则的初始权重和级别。

表8给出了反向传播神经网络(BP)和马尔科夫预测模型(MM)两种算法的初始参数。

表9给出了CMA-ES算法的输入参数。

 

 

6.4 仿真和结果分析

为了验证我们方法的有效性,进行了10轮验证。通过区间估计确定结果的准确范围,将100个数据分为10组,前9组作为训练数据,其余为测试数据。第一轮、第五轮和第十轮的训练结果分别如图9、10和11所示。

第一轮中(图9):BRB效果最佳,BP居中、MM最差;

第五轮中(图10):BRB效果最佳,MM居中、BP最差;

第十轮中(图11):BRB效果最佳,BP居中、MM最差;

表10列出了第10轮后三种方法的预测结果与实际结果之间的MSE。

表11为第10轮后三种方法的总体MSE和区间估计结果。区间估计结果是指在95%的置信水平下的平均估计区间。

以上结果表明,所提出的BRB模型,MM和BP分别将MSE控制在千分之一、百分之一和千分之一的水平上。因此,我们的模型比MM的水平降低了100倍的误差。此外,我们的模型实现了较小的、可接受的误差范围。因此,所提出的方法除了具有良好的预测精度外,还具有可靠、高效的特点。

 

7.结论

考虑到ICS可靠性的内部和外部影响因素,本文在BRB的基础上提出了一种新的ICS可靠性评估模型。将ICS可靠性评估分为内部故障评估和外部安全评估,使评估更加客观。BRB可以对样本中的半定量信息进行处理,其中既包含定量数据,也包含定性知识。这样,在样本充足的情况下,可以很好地训练模型。通过CMA-ES算法对初始训练参数进行优化,旨在提高模型输入的准确性。最后,通过案例分析,将所提出的模型与其他两种流行的预测方法进行了比较。结果表明,所提出的方法可靠、高效、准确,为复杂ICS的可靠性评估奠定了坚实的基础。

【论文阅读】Health Assessment for a Sensor Network with Data Loss Based on Belief Rule Base

【论文阅读】Health Assessment for a Sensor Network with Data Loss Based on Belief Rule Base

DIO:10.1109/ACCESS.2020.3007899

期刊:IEEE Access

作者:李绍华(大连理工大学软件学院博士、大连外国语大学软件学院副教授),祁瑞华(大连外国语大学软件学院院长)、郭禾(大连理工大学教授)

年份: 2020

引用:Li S H , Feng J Y , He W , et al. Health Assessment for a Sensor Network with Data Loss Based on Belief Rule Base[J]. IEEE Access, 2020, PP(99):1-1.

 

在以往基于BRB的健康评估研究中,没有考虑数据丢失的问题,这就降低了传感器网络在环境干扰下的估计精度。因此,为了提高传感器网络健康状态的估计精度,开发了一种新的基于BRB的健康评估模型,其复合结构包含两个构建的BRB模型。在新的健康评估模型中,

  • 首先,提出了一种基于BRB的缺失数据补偿模型,一个属性数据的补足对应构建一个补偿模型,然后使用这个属性的历史数据和专家知识对缺失数据进行估计。所开发的缺失数据补偿模型可以将历史数据和专家知识同时汇总,从而克服实际工作环境中可能造成观测数据不规则波动的干扰因素的影响。
  • 然后,根据补偿数据和观测数据,通过构建的健康评估模型对传感器网络的健康状态进行评估。
  • 另外,BRB构建的初始健康评估模型是由专家确定的。由于专家知识的不确定性和无知性,初始评估模型无法准确估计实际系统中的健康状态。因此,本文基于投影协方差矩阵自适应演化策略(P-CMA-ES)算法建立模型参数优化模型。

 

 

 

基于BRB的缺失数据补偿和传感器网络健康评估

摘要:随着系统复杂性的增加,传感器网络的使用越来越频繁,网络健康管理也越来越重要。

  • 1)当传感器网络应用于复杂环境时,受工程实践中干扰因素的影响,观测数据可能会丢失,这将降低健康状态评估的准确性。
  • 2)此外,由于干扰因素和系统的复杂性,观测数据和系统信息无法充分收集。

针对上述问题,我们开发了一种基于信念规则库(BRB)的健康评估模型。

在传感器网络的新型健康评估模型中,首先构建了基于BRB的缺失数据补偿模型,在该模型中,利用监测指标的历史数据和传感器网络历史工作状态的专家知识。然后,根据补偿后的数据和传感器网络的观测数据,通过基于BRB的健康评估模型来估计健康状态。鉴于专家知识的不确定性,初始健康评估模型无法评估传感器网络在实际工作环境中的健康状态。因此,本文构建了一种基于投影协方差矩阵自适应演化策略(P-CMA-ES)的优化模型。

 

1.问题背景

传感网是一种由许多自动装置组成的计算机网络,这些装置利用传感器收集复杂的系统信息(如温度、湿度、声音、振动、压力、运动或污染物),利用这些系统信息可以估计系统状态,并确保系统的可靠性和安全性。

由于这些传感器通常部署在无法进入的区域或无人值守的环境中,以记录数据或感知某些事件的发生,因此很难及时维护故障。一旦出现故障,如硬件故障、软件故障、能源故障、通信故障或攻击者入侵等,将导致传感器网络的有效性下降,甚至产生网络故障。因此,有必要采取一些措施来提高传感器网络的可靠性和安全性。

健康评估在复杂系统的健康管理中得到了广泛的应用,通过对观测信息的汇总来评估系统的健康状态。 目前对传感器网络健康评估的研究可分为三类:基于数据库的健康评估方法、基于知识的健康评估方法、基于半定量(定量数据和定性知识)的健康评估方法。近年来,人们进行了许多优秀的研究,例如

  • Mudziwepasi等人将传感器网络引入对牛的健康评估,并强调了无线传感器网络可靠性的重要性【2014,Assessment of a Wireless Sensor Network based monitoring tool for zero effort technologies: A Cattle health and movement monitoring test case】;
  • Tae等人开发了无线保健传感器网络在保健系统中的安全管理【2011,Security management in Wireless Sensor Networks for healthcare】;
  • Hu等人提出了基于BRB的网络安全评估的隐藏行为预测模型【2016,Study on Network Security Situation Awareness Based on Belief Rule Base】。

 

在这些研究中,为了提高实际系统中传感器网络健康状态的估计精度,有三个难题需要解决:

  • 问题一,数据无效和数据量少的问题。由于工程实践中的干扰因素和数据传输技术的限制,观测数据中存在大量的无效数据,难以获得大量可用的监测数据,尤其是故障数据。因此,第一个问题就是如何在健康评估中整合其他网络信息。
  • 问题二,数据复杂的问题。实际系统中存在多种因素同时影响传感器网络的健康状态。此外,传感器之间相互影响,它们之间可能存在信息传递。因此,仅靠专家无法建立准确的数学模型,难以直接应用自然语言中的模糊性和不确定性。因此,第二个问题是如何对专家知识进行聚合,以增加健康评估模型的信息量。
  • 问题三,数据缺失和数据波动的问题。传感器信息传输采用无线或有线方式进行,对环境干扰敏感。一旦受到影响,就可能丢失观测信息。此外,受实际工作环境中干扰因素的影响,观测数据会出现波动。观测数据的不完整会降低健康评估的准确性。在工程实践中,常用的方法是通过丢失前后两个数据的均值来计算丢失数据。但是,对于网络来说,平均值不能准确反映工作状态的变化趋势,因此,缺失数据补偿方法应同时考虑历史数据和工作环境。

基于以上对传感器网络健康评估中挑战的分析,在以往的研究中,监测信息缺失、系统影响因素复杂、数据丢失等问题无法同时解决。 因此,为了提高健康评估的准确性,本文建立了一种新的传感器网络健康评估模型。

BRB是在IF-THEN规则、模糊推理和D-S证据理论基础上发展起来的专家系统之一。在BRB模型中,定量的数据和定性的知识都可以应用,对于样本中既包含小数值又包含大数值的复杂系统,提高建模能力。另外,BRB模型的结构是由专家根据系统机理确定的,具有可解释性。因此,BRB模型可以用来处理监测信息缺乏、系统影响因素复杂的情况。

但是,在以往基于BRB的健康评估研究中,没有考虑数据丢失的问题,这就降低了传感器网络在环境干扰下的估计精度。因此,为了提高传感器网络健康状态的估计精度,开发了一种新的基于BRB的健康评估模型,其复合结构包含两个构建的BRB模型。在新的健康评估模型中,

  • 首先,提出了一种基于BRB的缺失数据补偿模型,该模型用于根据历史数据和专家知识对缺失数据进行估计。所开发的缺失数据补偿模型可以将历史数据和专家知识同时汇总,从而应对实际工作环境中可能造成观测数据不规则波动的干扰因素的影响。
  • 然后,根据补偿数据和观测数据,通过构建的健康评估模型对传感器网络的健康状态进行评估。
  • 另外,BRB构建的初始健康评估模型是由专家确定的。由于专家知识的不确定性和无知性,初始评估模型无法准确估计实际系统中的健康状态。因此,本文基于投影协方差矩阵自适应演化策略(P-CMA-ES)算法建立模型参数优化模型。

 

2.问题公式化

2.1 整个健康评估模型

针对上文的三个问题,本文提出的新型健康评估模型公式化为:

  • 为传感器网络在时间t的健康状态;
  • 表示第i个网络传感器特征,N为网络传感器特征的数量;
  • 表示用于模拟网络传感器特征与健康状态之间关系的非线性函数;
  • 表示在考虑历史观测数据的情况下,用于解决数据丢失的非线性函数;
  • 代表专家知识汇总到健康评估模型中,可以全面考虑传感器网络整个工作过程中的干扰。

本文整个健康评估模型如图所示:

 

2.2 基于BRB的数据补偿模型

基于 BRB 的缺失数据补偿模型:

  • 是输入特征的第 i 个历史数据。
  • 是第 i 个输入特征在第k条规则中的参考值。
  • 是第 j 级评价结果 Dj 的置信度。

对一个前件属性的补足就需要对应构建一个数据补偿模型。假设某个属性在第 t 个时刻数据缺失,那么我们就使用这个属性的第 1,...,t-1 时刻的数据作为BRB数据补偿模型的输入,然后对第 t 个时刻的估计补偿值作为BRB数据补偿模型的输出。

需要注意的是,在所构建模型的信念规则中,输入特征可以是任何时间点的历史数据。也就是说,我们使用这个模型补全的数据就可以当做历史数据,从而用于补偿时间更往后的数据。

 

2.3 基于BRB的健康评估模型

在对缺失数据进行补偿后,可以对传感器网络的健康状态进行评估。基于BRB的健康评估模型表示为:

  • 为传感器网络在 t 时刻的健康状态;
  • 表示传感器网络的第 i 个前件属性的输入数据,Ci 是第 k 条规则中该前件属性的参考值。
  • 表示健康度, 是他们在第k条规则中对该健康度的相应置信度。

 

 

3.传感器网络健康评估模型推理

3.1 基于BRB的数据补偿模型的构建

该模型旨在利用历史信息估计丢失的数据。建模过程包括以下步骤。

step1:统一历史数据的格式。

有了历史数据后,可以通过下面公式将其转化为匹配度:

  • 分别是第 k 条规则和第 k+1 条规则中第 i 个特征的参考值。
  • 表示输入数据中第 i 个特征的数据;
  • 表示输入数据与第 j 条规则在第 i 个特征的上的匹配度;

然后,就可以计算得到输入数据与第 k 条规则的匹配度为:

 

step2:计算规则的激活权重。

根据输入数据对规则的匹配度,以及规则的权重,可以计算出输入数据对规则的激活权重:

 

step3:聚合激活的规则,得到总的置信输出。

置信规则的输出代表了估计不同健康度的置信度,不同置信规则的输出不能直接汇总,因为置信规则的激活权重不同。所以,最终输出可以通过证据推理(ER)算法生成,如下图的公式所示。

 

step4:产生最终的输出。

根据总的置信输出,在 t 时刻的第 i 个特征的估计缺失数据可以通过以下公式得到:

注1:在基于BRB的缺失数据补偿模型的建模过程中,传感器网络的特征参考点的值和数量、初始模型结构和参数都由专家确定。这是一个专家知识融合的过程。专家最大的优势是可以全面考虑传感器网络的整个工作过程,从而可以解决环境干扰引起的数据波动问题。

 

3.2基于BRB的健康评估模型的构建

在对缺失的数据进行补偿后,可以通过开发的基于BRB的模型对传感器网络的健康状态进行评估。 在基于BRB的健康评估模型中,其输入为特征的观测数据和补偿数据,输出为传感器网络的健康状态。

健康评估模型的推理过程与缺失数据补偿模型的推理过程类似,可以概括为以下步骤

step1:计算观测数据与置信规则的匹配度。

其中:

 

step2:计算置信规则的激活权重

 

step3:聚合激活的规则,得到总的置信输出:

 

step4:产生最终输出:

 

注2:缺失数据补偿模型和健康评估模型的建模过程相似。两种模型的区别在于参数的物理意义。这是因为BRB模型的可解释性。在建模过程中,不同的参数被赋予不同的物理含义,其约束条件也不同。

注3:需要注意的是,基于BRB的缺失数据补偿模型是用来估计缺失数据的,而BRB健康评估模型是用来评估传感器网络的健康状态的。也就是说,基于BRB的补偿模型解决了数据丢失的问题,而基于BRB的健康评估模型解决了包含大量数值的样本缺失和系统复杂的问题。

 

3.3 基于P-CMA-ES算法的优化模型

缺失数据补偿模型的优化模型可以表示为:

 

传感器网络健康评估模型的优化模型可以表示为:

 

在缺失数据补偿模型和健康评估模型的优化模型中,选择PCMA-ES算法作为优化算法,其中优化参数为信念规则的输出信念度、特征权重和规则权重。优化算法中的迭代次数由专家根据观测数据量和优化参数确定。

 

整个传感器网络健康评估模型推理步骤归纳为:

step1:选择传感器网络的关键特征。 在基于BRB的健康评估模型中,输入传感器特性决定了模型结构和初始参数。此外,模型的复杂度和精度与输入传感器特性有直接的相关性。 因此,关键特征应先由专家选定。

step2:估计网络特征的缺失数据。根据对传感器网络的分析,可由专家选取正确的历史数据量,利用式(2)构建缺失数据补偿模型。

step3:训练缺失数据补偿模型和健康评估模型。根据传感器网络的历史数据,可以通过提出的优化模型对构建的两个模型进行训练。缺失数据补偿模型的实际输出由完整的历史数据集截断生成,健康评估模型的实际输出由专家根据网络原理确定。

step4:对开发的健康评估模型进行测试。在对构建的模型进行训练后,可以利用历史数据集对优化后的模型进行测试。需要注意的是,缺失数据补偿模型是健康评估模型的基础,它的应用可以保证观测数据的完整性。

 

4.案例研究

本文使用传感器网络对我国海南省建设的液化天然气(LNG)储罐的工作状态进行监测。 该LNG储罐位于中国南海附近。 由于海边的干扰因素,传感器网络采集的观测数据受到影响,观测数据较少。另外,传感器网络采用无线连接方式,可能会造成数据丢失。 另外,多种因素影响传感器网络的健康状态,增加了专家提供准确信息的难度。因此,开发了一种基于BRB的数据缺失补偿模型和基于BRB的健康评估模型。

 

4.1 缺失数据补偿

在本案例中,选取了可用范围( AR )和故障率( FR )这两个特性作为传感器网络的前件属性。针对这两个特性,分别构建两个基于BRB的数据丢失补偿模型。(就是说一个补偿模型用于补足一个属性的数据)

补偿模型中存在多个信念规则,第k条规则可表示为

在上述模型中,在考虑模型复杂度和精度的前提下,选取时间 t-1和 t-2的历史数据作为BRB的两个输入属性。在两个特性的参考点方面,AR和FR分别选取4个参考点和5个参考点。另外,在AR和FR的缺失数据补偿模型中分别给出了4个输出度和5个输出度。即 N1= 4 和 N2=5 。 需要注意的是,AR和FR的参考点和输出度是相同的。

专家给出的AR和FR的参考点和输出值分别如表1和表2所示。

 

然后,对AR属性的数据补偿模型、对FR的属性数据补偿模型,如表3和表4所示。

image.png

 

4.2 健康评估模型

有了补偿数据,就可以利用健康评估模型估计传感器网络的健康状态。使用两个特征作为前件属性,然后输出传感器网络的健康度。健康评估模型中存在多个信念规则,第k条规则可表示为

 

在本节中,两个特征的参考点与缺失数据补偿模型中的参考点相同。传感器网络的健康度由专家给出,分别为低( L )、中( M )和高( H )。其参考点如表5所示。

 

初始的健康评估模型如表6所示:

 

4.3 模型训练

实验中收集了515个观测数据,随机选取250个观测数据作为AR和FR缺失数据补偿模型的训练数据。在P-CMA-ES算法中,使用输出置信度、规则权值和特征权值作为训练参数。

在AR和FR缺失数据补偿模型中,分别存在82和152个优化参数;

在传感器网络健康评估模型中,共有82个优化参数。

在优化的AR、FR缺失数据补偿模型和健康评估模型中,生成数分别设置为200、200和300。

在AR和FR的缺失数据补偿模型的训练部分,选择完整的数据作为训练数据,通过优化的缺失数据补偿模型进行补偿。

AR和FR的优化缺失数据补偿模型分别如表7和表8所示。

image676b4facc0ba606c.png

 

AR和FR的估计输出分别如图2和图3所示。

如图2和图3所示,所构建的模型能够准确估计AR和FR的缺失数据。与FR的缺失补偿模型相比,AR的缺失补偿模型的估计精度较低,尤其是在网络状态变化较大的情况下,这是因为影响AR缺失数据的因素较多。因此,优化后的缺失数据补偿模型对AR的估计精度较低,尤其是在网络状态变化较大的情况下。

基于AR和FR的补偿数据,可以对传感器网络的健康评估模型进行优化和测试。在健康评估模型中,应用了250个观测数据,共选取125个观测数据点作为训练数据,其余观测数据作为测试数据。根据补偿数据,优化后的健康评估模型如表9所示

image8b08eb618c4fe4a6.png

 

优化后的健康评估模型的健康状态估计值如图4所示,红线为模型估计值,黑线为真实值。

可以看出,优化后的健康评估模型能够准确估计传感器网络的健康状态。 优化后的健康评估模型的MSE为0.0142。实验进行了50次运行。MSEs的均值为0.0919,MSEs的方差为0.0138。

 

4.4 实验对比

为了比较本文提出的基于BRB的数据补偿模型的效果,我们将用基于BRB的数据补偿模型补足的数据和使用均值法补足的数据,分布输入到优化后的健康评估模型中。

图4显示了使用两种补足方法作为输入的评估输出与真实值的差别。红线是使用基于BRB的数据补偿模型的补足数据作为输入而估计的健康度,蓝线是用均值法补偿数据估作为输入而估计的健康度,黑线是真实值。

可以看出,均值法产生的缺失数据不能准确评估传感器网络的健康状态。特别是当传感器网络的健康状态发生较大变化时,均值法的准确性受到很大影响。原因是目前实际系统中应用的均值法只是根据历史数据来估计缺失数据,当传感器网络的健康状态发生较大变化时,传感器网络的观测数据会发生不规则的变化。因此,在缺失数据补偿过程中,应用专家知识要考虑到传感器网络的整个周期。

 

5.结论

传感器网络是监测复杂系统状态的重要手段,它的健康状态与准确性直接相关。在传感器网络的健康评估中,观测数据的缺失、系统的复杂性和数据的丢失都会影响评估的准确性。 本文为了解决这三个问题,构建了一种传感器网络的健康评估模型,该模型由两部分组成:基于BRB的数据缺失补偿模型和基于BRB的健康评估模型。

本文有三个创新之处:

  • 第一,由于传感器网络和监测方法的复杂性,观测数据无法完全收集,因此,专家无法构建准确的模型。这两个因素给传感器网络的健康评估模型带来了挑战。因此,针对这些问题,构建了一种基于BRB的健康评估模型,在该模型中,定量数据和定性知识都可以进行汇总。
  • 另外,在数据传输的过程中,环境干扰因素会影响数据的传输效率。这进一步导致了观测数据特征的丢失,观测数据可能会受到环境中干扰因素的影响而出现不规则的波动。因此,为了处理传感器网络健康评估中的数据丢失问题,建立了一种基于BRB的数据丢失补偿模型,应用历史数据和专家知识作为输入,丢失数据作为模型输出。
  • 最后,BRB模型是专家系统之一,其初始参数由专家确定。由于专家知识的不确定性和模糊性,初始健康评估模型无法准确估计健康状态。因此,本文提出了一种基于P-CMA-ES的优化模型,该模型由缺失数据补偿优化模型和健康评估补偿模型组成。

Classification of Incomplete data based on belief functions and K-nearest neighbors

Classification of Incomplete data based on belief functions and K-nearest neighbors

DIO:10.1016/j.knosys.2015.06.022

作者:刘准钆(西北工业大学自动化学院) 、潘泉

报刊:Knowledge-Based Systems(KNOSYS)

年份:2015

 

 

本文为了处理不完整数据的分类问题 ,提出了一种新的使用 KNN 策略的基于置信函数的不完整数据的置信分类(Credal Classification of Incomplete,CCI)方法。本文的两个核心为:

  • 使用 KNN 算法实现对不完整数据的填补;从训练数据(完整的)中选择与测试数据(不完整的,带有缺失值的)相近的 k 个邻居,用训练数据填补测试数据中缺失的值,当然这会导致有 k 种填补版本。
  • 使用置信函数框架处理由不同版本填补造成的分类冲突问题,使用Dempster-Shafar理论融合各版本的分类置信分布;

 

基于置信函数和 KNN 的不完整数据分类

本文提出了一种新的使用 KNN 策略的基于置信函数的不完整数据的置信分类(Credal Classification of Incomplete,CCI)方法。使用KNN方法填补缺失数据的对象会得到 k 个版本数据,如果这 k 个版本的数据的分类结果之间存在高度冲突,则表明该对象的类是相当不精确(不明确)的,很难正确地分类到正确的类中。于是引入置信函数进行融合评估。整个算法的流程:

  • Step1:采用KNN算法计算不完整数据的K个近邻数据,并用近邻数据进行填补,获得k个版本的数据。
  • Step2:通过置信框架的分类算法,得到带有置信分布的分类结果。
  • Step3:通过不完整数据与k个版本的距离,计算打折因子,并对k个分类结果进行打折。
  • Step4:将打折后的k个分类结果进行融合,获得一个全局的分类结果。

 

1.数据缺失问题

1)造成数据缺失的原因

在各种实用的数据库中,属性值缺失的情况经常发全甚至是不可避免的。因此,在大多数情况下,信息系统是不完备的,或者说存在某种程度的不完备。造成数据缺失的原因是多方面的,主要可能有以下几种:

  • 1)有些信息暂时无法获取。例如在医疗数据库中,并非所有病人的所有临床检验结果都能在给定的时间内得到,就致使一部分属性值空缺出来。又如在申请表数据中,对某些问题的反映依赖于对其他问题的回答。
  • 2)有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失了。
  • 3)有些对象的某个或某些属性是不可用的。也就是说,对于这个对象来说,该属性值是不存在的,如一个未婚者的配偶姓名、一个儿童的固定收入状况等。
  • 4)有些信息(被认为)是不重要的。如一个属性的取值与给定语境是无关的,或训练数据库的设计者并不在乎某个属性的取值。 
  • 5)获取这些信息的代价太大。       
  • 6)系统实时性能要求较高,即要求得到这些信息前迅速做出判断或决策。

 

2)数据缺失机制

将数据集中不含缺失值的变量(属性)称为完全变量,数据集中含有缺失值的变量称为不完整变量,Little 和 Rubin定义了以下三种不同的数据缺失机制: 

  • 1)完全随机缺失(Missing Completely at Random,MCAR)。数据的缺失与不完整变量以及完全变量都是无关的。 
  • 2)随机缺失(Missing at Random,MAR)。数据的缺失仅仅依赖于完全变量。 
  • 3)非随机、不可忽略缺失(Not Missing at Random,NMAR,or nonignorable)。不完整变量中数据的缺失依赖于不完整变量本身,这种缺失是不可忽略的。

目前大多数研究关注的是前两者, MAR 和 MCAR。

 

3)处理方法

目前已经出现了很多对不完整数据进行分类的方法,根据其解决方法主要分为以下四类:

  • 1)不完整的数据直接抛弃;
  • 2)应用基于模型的程序,可采用最大似然算法来估计模型参数;
  • 3)先对缺失数据进行估计,然后对带有估计值的不完整数据进行分类。
  • 4)利用机器学习算法将缺失的数据纳入到分类器中。

 

4)介绍本文方法

本文使用最常用的方法,首先利用一些技术估计缺失值,以使数据完整,然后应用选定的标准模式分类算法。这些分类方法通常将不完整的模式投入到获得最大概率的特定类中。 但是,缺失数据在某些情况下会产生较高的分类不确定性(不精确性),因为缺失值的不同评估版本会造成对象的不同分类结果。所以,这就使得现实中不完整数据对象很难被划分到具体的类别中。

这种由缺失值引起的模糊性(不精确性),在用概率论框架工作时,通常用等概率值来表示,其实这并不能很好地模拟人们对分类的真实知识缺乏(不精确性)。这种知识的缺乏最好用置信函数来建模,这就是为什么我们提出用置信函数来处理不完整数据的置信分类(CCI)的原因。

本文用置信函数处理的流程大致为:用处理完整数据的经典方法对不完整数据的K个填补版本分别进行分类。然后根据相应邻域与对象之间的距离,分别对K个分类结果进行不同的加权系数折算。将这些折算后的分类结果进行全局融合,用于对象的置信分类。在融合过程中,冲突信息可以很好地捕捉到对象类的不精确(模糊)程度,从而有条件地保留下来,并根据当前的上下文转移到元类中。将难以正确分类的不完整数据合理地提交到合适的元类中,这样可以很好地揭示由于缺失值导致的分类不精确程度,减少误分类的误差。

 

2.置信函数基础

(1)概率分配函数

为样本空间,那么其内所有子集表示为 ,那么概率分配函数( mass函数)定义为如下的一个映射:

其中 表示中任意一个子集的基本概率设置(BPA)

若样本空间有n个独立元素,那么用D中元素构成的子集就有种,这就是为什么用表示所有子集;

概率分配函数实际上就是将信任度1分配给 的各个子集,表示子集d分配到的信任度。

 

(2)信任函数Bel 和 似然函数Pl

信任函数的定义为:

Bel 函数又称下限函数, 表示对 B 为真的总信任度(最低信任度),它是B的所有子集合含有的基本分配概率之和。举个例子,

似然函数的定义为:

Pl函数又称上限函数,表示不否定 B 为真的信任程度(最高信任度),它是可能分布在B中元素的基本分配概率的总值。

下图为D-S证据理论证据区间描述。系统进行决策时,将在区间 中选取一个数值作为对命题 A 的最终信度(Final belief),所有候选命题中信度最高者即为决策结果。

 

(3)Pignistic概率 BetP

利用pignistic概率变换 近似成一个概率度量,以获得决策支持。对于所有 A ∈ D,BetP变换在数学上定义为

(4)Dempster合成规则

Dempster合成规则正是用来将多个主体的输出结果相结合的关键步骤。

Dempster合成规则是一种联合的概率推理方法,它是非补偿的,也就是说:如果任意一条证据否定了某个基本假设,不管其他证据以多大信度支持该基本假设,合成结果将完全否定该基本假设.

假设现有两条独立证据m1和m2,将两条证据合成,其公式:

3. 不完整数据的置信分类(CCi)

3.1 使用KNN获取K个填补版本

问题描述:假设有 H 个训练数据 ,这个训练数据是完整的,且明确知道每条数据的标签 ,然后要着重对 N 个测试数据 进行分类,这个测试数据是不完整的。

在训练数据空间中,首先利用已知值搜索测试数据 的K近邻(KNNs)。在这一步中,目标与训练数据之间距离的计算至关重要,缺失值的维数将被忽略。

测试数据 与训练数据 的距离定义为:

其中

其中

  • 表示第 i 个测试数据在第 g 维度上的值;
  • 表示第 j 个训练数据在第 g 维度上的值;
  • P 表示测试数据 xi 中有值的维度数量(测试数据一些属性上的值缺失了);公式中的系数 是为了保持标准化距离,因为每个测试数据可能有不同数量的缺失值维度;
  • 表示训练数据中属于 类的数据在第 g 维上之间相互距离的平均,主要用于处理各向异性数据集;
  • 表示属于第 r 个类;
  • q 表示训练数据中属于 类的数量;

从训练数据集中选出距离最近的 k 个训练数据,用以替换测试数据中缺失的值。对于第 i 个测试数据的第 j 维的缺失的第 k 种填补方案为表示为: .

 

举个例子来说,假设 ,然后其在训练数据中有 3 个近邻:

那么测试数据 xi 就有3种填补方案,分别是:

 

3.2 对k种分类结果折现

本节先对填补版本进行分类,并计算权重。这 k 个分类结果的可靠性(权重)取决于测试数据 xi 与k个训练数据 yk 邻居的之间距离。如果 xi 与 yk 的距离很大,意味着这个邻近物体的估计值不可靠,那么权重就应该相应的小。所以,对于测试数据 xi 的填补,定义第 k 个版本的权重为:

对权重标准化后,得到相对可靠因子:

由于K个结果的可靠性不一样,在进入融合过程之前,应该分别对它们进行折现。本文使用应用Shafer的著名折现规则,基于相对可靠因子对分类结果的置信分布进行打折:

  • A 表示类别标签组 中的一个;
  • 表示测试数据 xi 的第 k 个填补版本的可靠度;
  • 表示测试数据 xi 的第 k 个填补版本被分为 A 类的置信度;
  • 表示测试数据 xi 的第 k 个填补版本被分为 A 类的折现后的置信度;

 

3.3 k个折现分类结果的全局融合

在全局融合过程中,K分类结果可能相互冲突。换句话说,根据不同的分类结果,对象可能属于的类可以被认为是不同的。例如,一些分类结果可能表明对象最有可能在 A 类中,而其他分类结果可能强烈支持在 B 类中。

将Pignistic概率(BetP)最大的类别作为分类结果,然后 k个分类结果对应的置信度划分为 c 个组 [G1,G2,..., Gc]:

融合这 k 个分类结果的置信度,包括两个步骤:

  • 1)分类结果在同一组中的组合,即将 Gr 中的分类结果的置信度融合;
  • 2)与不同组相关的子组合结果的全局融合,即将 Gr 与 Gj 中的分类结果置信度融合;

 

1)组内的置信度融合

对于第一步,同一类的分类结果由于强烈支持同一类,所以不存在高度冲突。因此,可以使用简单的平均方法来组合这些结果,因此我们使用以下融合(平均)规则

,s=1,...,c

  • 表示集合中的个数;
  • 表示测试数据 xi 的第 j 个填补版本分类结果折现后的置信度;

 

2)每组置信度折现

对于第二步,不同组的子组合结果可能存在高度冲突,因为它们可以强烈支持不同的类。在进行全局融合前,同样需要进行折现(权重调整):

,其中权重因子

权重因子有三个参数 a,b,c,三者需要满足约束 c=1; b= a-1。可以看出,当有更多数量结果支持 s 组的分类时,将具备更大的权重。特别的,对于数量最大的组,权重将为1;

下图展现了,在不同参数情况下,组内数量与权重变化

 

3)组间置信度融合

然后使用Dempster-Shafar理论的组合公式合成最后的分类结果置信分布。

此外作者针对一种特殊情况做出应对方法:假设𝐺1有 𝑛1个版本支持归纳为𝑤1类,𝐺2有𝑛2个版本支持归纳为𝑤2类。当𝑛1与𝑛2相同时,则此时最后的分类结果可能为𝑤1∪𝑤2。所以作者设置一个阈值:

ε 是 [0.5, 1] 之间的随机数,那么 Φ 中的分类都是具有较强支持度的,不能只考虑一个,要都考虑。

融合 c 个组的置信度公式为:

归一化后,得到最终融合得到的置信分布:

 

3.4 举例

假设一个CCI问题中有 H 个训练数据 ,这个训练数据是完整的,标签有三种 ,现有不完整的测试数据

step1:使用3.1节的KNN方法,计算 xi 与所有训练数据的距离,找到5个近邻,得到了 5 个填补方案。然后用对完整数据的推导方法得到这5个填补方案分类结果置信分布:

step:2:计算这 5 种分类结果的折现置信度,使用 3.2 中的公式,先计算可靠因子,再折现为置信度;

  • 可靠因子: .
  • 折现置信度: .

step3:对这 5 个分类结果全局融合。

  • 首先按照第 2 节介绍的公式将置信度换算为Pignistic概率(BetP)

    比如第 1 个版本的 w1 类别,,……

  • 然后选择 BetP 最大的类别作为分类结果,划分为 2 组,第一组支持 w1类,第二组支持 w2类

    .

  • 然后组内的置信度融合(注意是对step2中的折现置信度求均,不是对Pignistic概率)

  • 然后乘上权重因子β折现:

  • 然后组间置信度融合

    比如计算w1:

    计算 w2:

    最终所有计算所得:

  • 然后归一化

可以看出融合结果, w1∪w2 具有最大置信度。对于存在缺失的 xi 很难分给特定的 w1类或 w2类,所以分给 w1∪w2 能很好的折中,减少错误。

 

4.案例研究

4.1 案例一

人工构造如图所示100条训练数据集和100条测试数据集,总共有三类 。然后测试的第一维全部缺失。

以下是使用均值(MI)、KNN、CCI 三种方法对缺失了一维的测试数据的分类结果:

明显看到,对于缺失了一个维度的测试数据 xi,MI和KNN的方法会把对象分到确定的类别中,但这带来较大误差;而CCI方法的会把不能确定具体类别的缺失数据分到两个类别并集中,这种对不确定的处理方法能降低误差;

 

4.2 案例二

人工构造环形数据集

比较 CCI、KNN、PCC方法

 

4.3 案例三

用随机方法构造数据集,使用 N 个训练数据,N个测试数据,每个测试数据有 n 个缺失值。( N ∈ [100,200]、n ∈ [] )

CCI、KNN、MI在三类数据集上做性能比较

 

4.4 案例四

测试了 UCI 中四个经典数据集(Iris,Seeds, Yeast,Wine )

MI、KNNI、PCC、CCI 四种方法性能比较

 

 

参考

【论文阅读】A New Dynamic Rule Activation Method for Extended Belief Rule-Based Systems

【论文阅读】A New Dynamic Rule Activation Method for Extended Belief Rule-Based Systems

DIO:10.1109/TKDE.2014.2356460

期刊:Knowledge & Data Engineering IEEE Transactions on

作者:Alberto Calzada,刘军

年份:2015

引用格式:Calzada A , Liu J , Wang H , et al. A New Dynamic Rule Activation Method for Extended Belief Rule-Based Systems[J]. Knowledge & Data Engineering IEEE Transactions on, 2015, 27(4):880-894.

 

本文针对 EBRB 决策模型中激活的规则存在不一致和不完整的问题,提出了一种动态规则激活方法(DRA),通过控制一个指数参数 λ 的值来调整个体匹配度的大小,从而实现对激活权重较小的规则进行惩罚和奖励,达到减少或增加激活的规则数量的目的。

image9a1d12d32dd12a0e.png

  • 如果参数 λ=1,那么将没有惩罚或奖励,这就是传统的 EBRB 方法激活过程的结果。
  • 不完整问题是说,对于一个输入数据 x,EBRB模型激活的规则数量过少,最极端的现象就是激活的规则数量为零。这时可以调小 λ 值,从而增大个体匹配度,从而使激活权重增大,增加激活的规则数量。
  • 不一致问题是说,对于一个输入数据 x,EBRB模型激活的规则中结果类别不一样。这时可以调大 λ 值,从而减小个体匹配度,从而使激活权重减小,将激活权重低的规则剔除出去。
  • 本研究中使用函数来衡量超元组△的一致性或一致性方面的表现。
  • 当 λ 值有更大的调整区间时,使用 DRA 方法可以更好的解决激活的规则中不完整和不一致的问题,从而提高 EBRB 模型的准确率,但是 DRA 方法需要额外的时间消耗更大,因此需要找到一个适当的 λ 值调整区间,从准确率和时间上找到平衡。

 

一种新的对 EBRB 系统的动态规则激活方法

摘要:数据不完整和不一致是数据驱动决策模型中常见的问题。在某种程度上,它们可以被认为是两种相反的情况,数据的不完整是由于缺乏信息而发生的,数据的不一致是异质信息的过剩。虽然这些问题往往会导致模型精度的降低,但大多数建模方法缺乏解决这些问题的机制。本研究主要针对 EBRB 模型,提出了一种同时解决这两个问题的动态规则激活(DRA)方法。DRA 以动态的方式选择被激活的规则,在样本数据生成的规则库的不完整性和不一致性之间寻求平衡,以获得更好的性能。

 

1.问题背景

本研究主要关注生成 EBRB 决策模型中两种特别常见的情况:不完整和不一致。

不完整性发生在由于生成的规则库缺乏信息而无法产生决策结果的情况下(本质上是由样本数据集的不完整性造成的)。另一方面,当 EBRB 模型无法提供有把握的结果时,就会出现不一致的情况,因为对于同一个输入,两个或多个具有不同的规则(THEN部分)被一起激活,这可以看作是规则库中冲突信息过多。

一些研究同时处理规则库不完整和不一致的文献有:

  • 在【2003,Fuzzy rule base systems verification using high-level Petri nets】中提出了一种基于Petri-net的机制来表示规则库并识别冲突的情况。然而,这种方法需要执行三个过程才能将整个规则库转化为Petri-net,随着规则数量和规则库复杂性的增加,计算成本可能会很高。
  • 在【1999,A new approach to verify rule-based systems using petri nets】中提出了类似的基于Petri-net的机制。
  • 在【1988,Checking a rule base with certainty factor for incompleteness and inconsistency】中提出另一种方法,使用执行路径的概念来识别这些问题。一个执行路径是一个规则链,其中一个被触发的规则的结果可以作为另一个规则的前因。在这种情况下,有必要找到规则库的所有可能的执行路径,随着规则库复杂性的增加,这可能成为一个令人望而却步的过程。此外,在许多由数据直接生成的规则库中,所有的规则都共享相同的结果属性,因此,为了生成执行路径,将不可能连锁规则。
  • 在【1996,Detecting local inconsistency and incompleteness in fuzzy rule bases】批评了当模糊规则库由语言和定性知识生成时简化所意味的成本,并提出了e-completeness和e-consistency的概念来抵消这种负面影响。然而,他们的方法只关注定性信息,并不适用于通常由数字数据生成的数据驱动方法。
  • 本研究选择的知识表示模型是扩展信念规则库(Extended belief rule-base,E-BRB),是一种通用且有效的方法,用于处理问题的相关模糊、不完整和/或不确定的知识,以及精确的数据。因此,它能够涉及定性和定量数据,克服了其他最先进决策模型的一些主要问题。

本研究的目的是增强数据驱动的知识表示方案,针对 EBRB 模型提出了一种专门的激活算法(名为动态规则激活,DRA),旨在为每个输入数据样本找到合适的规则集。

DRA的主要是通过自动调整激活规则集的大小来解决决策模型中发现的不完整性和不一致性:

  • 在不完整的情况下,DRA会增加规则集的大小,捕捉一些其他的上下文、邻域信息[10]。
  • 在不一致的情况下,DRA会搜索更小的激活规则集,试图找到更精确、更均匀的信息。

本研究的重点是强调DRA作为一种激活方法,在准确度(正确预测的实例数量)和效率(时间复杂度)方面的优势,它可以找到规则库中包含的最合适的规则集,而不是将整个规则库聚合起来得到一个结果。最后,本研究还比较了DRA作为激活方法与欧氏距离相似性的性能。

 

2.EBRB基础

2.1 规则的格式

BRB 通过将置信度分布嵌入规则的结果中,还使用了额外的参数来表示不同属性和规则的重要性,提供了处理因果关系、非线性关系以及不确定性的方法。

EBRB 导入了 BRB 的所有优点,并对其进行了扩展,因为它们不仅在规则的结果中包含了信念度分布,而且在所有的前因中也包含了信念度分布。

置信规则库规则:

扩展置信规则库的规则:

 

2.2 规则的生成

EBRB 的规则生成方法是将数据集转化为EBRB,一个有 L 个样本的数据集将被转换为具有 L 个扩展信念规则,在这个过程中,原始数据集中包含的所有信息都会转移到E-BRB中。

作为一种数据驱动的方法,EBRB 确实在一定程度上牺牲了基于规则的系统的可解释性/透明度(尽管仍然保留了IF-THEN映射的基本特征)。然而,E-BRB在适用性(适合在线或实时应用)、效率(不需要耗时的训练或优化算法)和准确性方面提高了整体性能。

第 k 个输入数据转换为第 k 条规则的前件属性的置信分布:

第 k 个输出数据转换为第 k 条规则的后件属性的置信度分布:

由于原始数据集和规则库之间的直接关联性,基于E-BRB的系统可以被归类为基于实例的学习。因此,在EBRB之上执行的推理过程可以归类为 "懒惰",即从原始数据集学习和建立模型上的工作很少。相反,在对新样本进行分类时,需要做更多的工作。以下小节概述了从E-BRB中检索决策输出的推理步骤。

 

2.3 EBRB的推理过程

(1)将输入数据转为置信分布

(2)计算输入数据与第 k 条规则的个体匹配度

  • i 是指第 i 个前件属性;(Ui是指第 i 个前件属性,xi 是指第 i 个前件属性是输入数据)
  • k 是指第 k 条规则;
  • 是输入数据的 xi 的第 i 个前件属性的第 j 个参考值的置信度;
  • 是规则库中第k条规则的第 i 个前件属性的第 j 个参考值的置信度;

(3)计算输入数据对第 k 条规则激活权重

和BRB的不同点是将 α_i^k 替换为 S_i^k

(4)计算合成的总置信度

(5)根据总置信度评估输出

假设 Dj 的效用(或得分)由 u(Ds) 表示,那么其期望平均得分(效用):

如果评估不完整或不精确时,对于分布评估补充定义为如下:

当评价为完整的时候,有 ,且

 

3.EBRB映射为超元组

将每个扩展的信念规则(或其他决策模型的数据样本/实例)视为一个输入-输出数据对(称为元组),依据后件属性的评级可以分组,创建超元组。

图3显示了一个具有三个可能类的数据集,数据集只有两个前件属性。图3中也用矩形说明了一些超元组,它们都是一致的超元组,因为它们只是包含了同类的元组 —— 也就是说,每个超元组内的所有规则都有相同的结果。

在理想的条件下,可以假设任何输入向量都会激活一组规则,这组规则对应数据集的一致的超元组。但是,由于用于生成规则库的数据存在噪音、不一致性或可靠性,通常情况下情况并非如此。

在假设这些问题的前提下,本研究放宽了超元组的概念,将超元组视为具有相似后件部分的一组扩展信念规则(即具有相似输出部分的一组元组)。定义给定输入向量规则之间相似度标准的一种简单方法是使用已经计算的激活权值。因此,在本研究中定义超元组△为激活权值大于零的扩展信念规则集,即:

基于数据驱动的规则系统通常依赖于静态规则激活程序,在输入和规则使用相似性度量进行比较后,检索到的超元组(无论是否为空、是否一致)直接进行处理,得到决策支持结果。但是,对于一个输入,可能会出现△为空(不完整的情况),或者△不一致,并且包含不同结果的规则(不一致)。

 

4.动态规则激活方法DRA

4.1 激活的超元组

在基于规则的系统和其他数据驱动方法中,激活过程是最重要的步骤之一。大多数基于规则的决策模型都是基于静态规则激活的,依赖于相似性度量应用后检索出的整个激活规则集。之所以称之为静态,是因为一旦应用了相似度度量,被激活的规则集是固定的。也就是说,没有根据通常影响决策模型性能的不同情况进行调整或控制,如规则库的不完整或不一致。

本节介绍了如何用超元组来表达规则库的不完整性和不一致性的概念。为了达到这个目的,引入了输入的每个属性的激活区间的概念,这些概念将有助于表示和理解拟议的DRA方法。

根据定义,D超元组只包含激活权重大于零的规则。在这种情况下,超元组D可以被描述为每个前置属性的所有可能的激活值相交的区域。表1中所呈现的示例数据集可以如图4所示来表示。

在图4中,对于(Up, One)的输入,只激活了一条规则(超元组中只包含一个白圈)。

图4中表示的理想情况通常不是这样。相反,激活区间经常定义一个超元组△,这个超元组要么是空的,要么包括 要进行聚合的不同规则。下图5使用一个二维数据集描述了这两种情况,

  • 图5左图描述了规则库不完整的情况,对于输入 (x1, x2) 的相似度函数定义了激活区间(图中虚线所示),该区间限定了一个空的超元组△(描述为灰色矩形)。
  • 图5右图说明了一种不一致的情况,在这种情况下,超元组△包含来自不同类的元组。粗箭头代表了改善这两种情况的可能性。

本研究中提出的关键是自动打开或关闭每个属性的激活区间,搜索一个合适的超元组。 当搜索这样的超元组时,需要考虑的一个重要方面是,规则库的不完整和不一致可能被看作是相反的情况。 前者是由于缺乏被激活的规则而发生的,而后者则是在给定输入的激活规则过多时出现的。也就是说,不完整性发生在 时(超元组为空,因为没有一条规则被激活),而不一致性发生在一个输入激活了两条或两条以上不同后果的规则时。

因此,在本研究中,规则库的不完整性和不一致性之间的适当平衡被认为是聚合的最合适的情况。对此,所提出的DRA方法根据计算激活权重后发现的情况,通过打开或关闭激活区间来寻找该平衡点。

 

4.2 控制超元组大小的方法

根据对超元组的评估,可以分别通过增大或减小的大小来检测和修复规则库中不完整或不一致的情况。如前所述,的大小由其激活区间决定。DRA通过调整一个单一的参数 λ 来控制激活区间的打开和关闭。

DRA是通过将个体匹配度 幂化为 ,用于调整在个体匹配度,并最终选择哪些规则的激活权重大于零。

可能以两种不同的方式影响 的结果:

  • 1)较高的 λ 值会惩罚激活权重较低的规则(将其激活权重降至几乎为零);
  • 2)较低的 λ 值会奖励激活权重较低的规则(增加其价值);

前者通过寻找更小的、更具体的、更一致的超元组,有助于解决不一致的情况。同时,后者通过打开激活区间,获得更大的超元组,有助于避免不完整情况。

λ 值控制输入向量的激活区间范围,惩罚或奖励激活权重较低的规则,最终解决由数据直接生成的规则库不完整或不一致的问题。 在这方面,λ 值越高,检索到的超元组 越小。例如,在λ=50的情况下,小于0.9的相似度值将由 λ 的幂乘而降到几乎为零。相应地,所有最初被激活,但相似度值小于0.9的规则都会从超元组中被丢弃。换句话说,超元组将只包含个体匹配度高于0.90的规则。图6显示了激活权重如何对一些代表性的值进行惩罚。

假设 为包含 EBRB 中所有规则的超元组,可以对DRA方法做如下定义:

  • 如果参数 λ=1,那么将没有惩罚或奖励,这就是传统的 EBRB 方法
  • 如果参数 λ=0,那么激活的超元组将是整个规则库
  • 如果参数 λ=∞,那么激活的超元组个数为 ,H是完全匹配输入数据的规则的数量。
  • 如果 ,那么激活的超元组满足 ,而且

因此,λ=1 被认为是DRA算法的起点。从这一点出发,该方法选择提高或降低其值,以此来控制超元组 的大小,增加或减少的决定取决于三个基本策略:

1)如果存在不完整的情况(即超元组大小),则减少 λ 值以打开激活区间,从而增加D的大小。

2)如果存在不一致的情况(即超元组中的规则有不同的结果,属于不同的类别),则增加 λ 值以惩罚激活权重低的规则,关闭激活区间,从而减小D的大小,在D超图谱中寻找更高的一致水平。

3)在超元组中最好有大量的信息进行聚合。人们认为,用于生成输出的相关信息量越大,其可靠性就越高。换一种说法,考虑最坏的情况,有一个大小为 的超元组。在这种情况下,几乎每一个分类器的行为都会类似于最近邻(1NN)方法,因为它只有一条规则可以聚合,因此只基于一个训练样本就能得到一个决策结果,这在大多数情况下并不是一个很可靠的情况。 为了避免这种情况,DRA会尽可能地搜索大的D超元组。

 

4.3 DRA算法

算法1详细介绍了DRA在伪代码中的实现,使用变量 来存储性能最好的 DRA。

为了量化上一节提到的三个原则之间的理想平衡,DRA利用函数来衡量超元组△的一致性或一致性方面的表现。在本研究中, 被定义为:

 

,其中

【举例】在一个超元组 △ 中,有3条信念规则的后件属性具有最大置信度的评估等级为 "低",有4条规则为 "中",有6条规则为 "高"。那么,

检测 中的离群值是一种可选的方法,可以用来简化后续的推理程序。在我们的具体研究中,该方法计算 中包含的结果的平均值。然后,它测量每个规则结果与平均值的距离,以识别可能的异常值。离群值的归一化距离为1(远离 的平均值),这意味着它的结果信念分布与 中的其他规则没有任何共同的参考价值。在本文介绍的案例研究中,这些离群值被认为是不一致的信息,DRA将其丢弃。然而,这种方法提供的信息可能是有价值的。例如,一旦推断出决策输出,关于离群值的信息就可以用来进一步调整结果,表示不确定性,或者对规则激活过程中发现的最冲突的不一致信息提供具体的反馈。

最后,值得注意的是,DRA不能被认为是一个优化过程,因为知识库的参数或属性都不是为了提高系统的性能而调整的。DRA最好归类为一种支持性方法,它可以在数据驱动DSS的推理过程之前运行。因此,与大多数常见的优化方法在调整整个数据驱动决策模型(在本例中为E-BRB)的参数量时所耽误的时间相比,它已被调整为实现高水平的效率。尽管如此,优化模型仍然可以适用,而不影响DRA的性能。

检测超元组 中的异常值是一种可选的方法,可以用来简化后续的推理过程。在我们的具体研究中,这种方法计算 中包含的结果的平均值。然后,它测量每一个规则的平均值后的距离,以识别可能的异常值。离群值的归一化距离为1(远离 的平均值),这意味着它的结果信念分布与 中的其他规则没有任何共同的参考值。在本文提出的案例研究中,这些异常值被视为不一致的信息,DRA丢弃它们。然而,这种方法提供的信息可能是有价值的。例如,一旦推断出决策输出,就可以使用异常值的信息来进一步调整结果、表示不确定性或

 

4.4 调整 λ 的敏感性分析

该小节描述了DRA如何工作,以控制每个超元组△的大小,在不完整性和不一致性之间寻找平衡,并满足上述三个条件。

(1)减少 λ 以解决不完整的问题

DRA提供的补偿或解决不完整性的机制只是降低 λ 数值,重新计算规则的激活权重。相应地,超元组△的大小也会增长,试图捕捉更多与给定输入向量相关的上下文信息。当超元组△为空时,这种机制就会被激活。为了说明问题,这里利用了一个关于输油管道泄漏检测的例子。数据集有两个属性,压力差(PD)和流量差(FD),它们被绘制在一个二维散点图中。根据这两个属性,目的是预测石油管道是否有泄漏。下图7详细介绍了泄漏检测数据集与其两个属性的分布情况,以及D的大小如何对应给定的输入向量而变化:

减小 λ 值可以恢复某些信息,这些信息在 λ 值较大时被丢弃。在图7所描述的例子中,在 λ=76 时,存在不完整的情况,因为没有一条规则被激活,因此 超元组是空的。λ 降低到 75 允许奖励具有残余激活权重的规则,以便捕获与给定输入向量相关的更多信息。

在最坏的情况下,λ 降为0,EBRB 中的所有规则将被激活,系统提供的输出,很可能是一些折衷值,向用于生成EBRB 的整个样本数据集的平均输出。然而,这个折衷方案将包含大量的不确定性,向用户表明输出的可靠性很差。 在任何情况下,与规则库中的任何一条规则都没有被激活,返回一个完全没有结果的失败执行时的情况相比,拥有一个折衷方案仍然可以为用户提供一些信息。 折衷方案的方法在复杂的基于规则的系统中尤其显著,因为在这个系统中,属性被组织成一个由多个子规则库组成的层次结构。 在任何一个叶子规则库中检索失败的执行结果,都会将失败的执行错误传播到层次结构的根部。然而,在某些节点上有一个折中的解决方案,仍然可以在其余规则库中推断出一个结果。

 

(2)增加 λ 以解决不一致的问题

在规则激活过程中,不一致的情况很常见。在这种情况下,规则聚合过程将是复杂的,因为一些不一致的规则引起了一定的不确定性,这些规则不应该被激活为一个输入。

增加值 λ 减少△的大小,丢弃相关性较低的规则,以此来获得更多的同质信息。 在图8中,λ 值从1增加到3 ,随着增加,超元组 △ (阴影区域)被减小,丢弃激活权重较低的规则,最终拥有一个合适的△,只包含最相关的信息。 在图8所示的例子中,在DRA过程中丢弃了33条相关性较低的规则,保留了18条激活度最高的规则。

20200731095839.png

 

 

5.在EBRB模型嵌入DRA方法

为了证明DRA的性能,它被嵌入到两个不同的推理方案中,用于组合超元组△中的规则并生成最终结论:

  • 推理方案A——ER:使用 RIMER 模型;
  • 推理方案B——WA:使用加权平均(weighted average ,WA)算法,通过聚合超元组△中规则的后件属性,并以其激活权重作为加权参数。计算公式为 .

图9总结了所提出的决策模型的架构,以及DRA如何作为数据激活步骤适合于其他决策模型。

 

6.案例研究

6.1 λ 值的调整区间的实验分析

从UCI资源库中选取了三个非平衡的多类数据集,分别命名为Glass Identifi- cation、Ecoli和Yeast,对DRA进行敏感性分析。 考虑到 λ=1 是基本情况,在此情况下,不施加任何惩罚或奖励,本案例研究通过改变 λ 的可接受值范围来分析 DRA 的敏感性。

表2说明了随着DRA使用更高的 λ 值,该方法的准确性是如何提高的。表中还列出了对每个数值区间进行的十次系列测试的最低、平均和最高结果,以及每次测试的平均时间。

如表2所示, λ 有更大调整区间时,EBRB 的精度会增加 ,当然花费的时间也更多。因此可以为特定的问题选择一个折中的区间,以获得准确性和时间复杂性之间的理想平衡。

 

6.2 DRA方法在性能提升上的分析

分别比较 EBRB-WA(合成置信度时采用加权平均法WA)和RIMER(合成置信度时采用证据推理法ER)的 EBRB决策模型在应用和不应用DRA作为激活算法的情况下进行了测试(见第5节)。

从UCI中收集了22个基准数据集。22个数据集按其类数划分,创建了三组主要的数据集:两类数据集(表3)、三类数据集(表5)、多类数据集(表6)

image881e231a597060d6.png

总体来看,使用了 DRA 方法后的结果都比不使用 DRA 方法的强。如表5和表6所示,与其他最先进的方法相比,加入DRA作为规则基础分类器的激活步骤,提高了系统的输出精度,并将多类数据集的精度提高到了具有竞争力的水平。这些研究选择了ER和加权平均算法作为例子。然而,由于DRA方法的灵活性,通过将其应用于其他决策模型和推理算法,有机会进一步提高本研究中获得的准确性。 值得注意的是,使用DRA方法的类数和精度的提高并不是完全相关的。 虽然随着类数的增加,准确率的提高变得更加显著,但这两个因素之间并不是线性关系。

最后一个需要注意的问题是使用DRA后在耗费时间的增加。即使DRA被设计成尽可能高效地工作,在规则激活和推理过程之间增加一个激活算法也会增加一些计算工作量。然而,与为了优化整个E-BRB的所有参数而进行预处理所需的高昂成本相比,这种增加相对较小。 此外,利用DRA抛弃不相关和不一致的信息,可以简化后续的聚合方法,降低其计算成本。这一点在一些大型数据集中可以看到,例如甲状腺或汽车评估,由于DRA执行的规则丢弃过程,整体时间复杂度大幅降低。

 

6.3 与其他方法的比较

本文方法和其他的一些机器学习方法在二分类数据集(表2)、多分类数据集(表7)上比较:

 

表 8 汇编了【2010,Classification by semi-supervised discriminative regularization】中的一些准确度及其标准差(括号内)与本研究获得的准确度。

 

 

7.总结

提出了一种新的DRA方法,以选择最相关的信息,在数据驱动的决策模型中进行汇总。在有许多类的数据的情况下,该研究已经证明了如何只关注最相关的信息,不仅简化了后续的聚合方法,而且提高了系统的整体准确性。同时,DRA提供了一种优雅而又有效的方法,一次性解决不完整和不一致的情况。

目前,为了增强E-BRB的可解释性,减少规则和属性的数量,简化模型,正在进行进一步的研究。在这方面,有很多可能性可以解决这个问题,比如加入聚类算法,对相似的扩展信念规则或数据实例进行分组。

虽然选择了RIMER作为代表性的框架来例证DRA方法;但任何其他基于实例(或数据驱动)的模型都可以使用,只需根据模型的情况调整一致性和完整性评价函数即可。 此外,通过在DRA框架内使用任何其他相似性和协议函数,有机会进一步提高本研究中提出的准确性。在DRA框架内使用其他相似性和一致性函数,有机会进一步提高本研究的准确度。

需要注意的是,DRA不仅为实现更高的总体准确率提供了可能,而且还提供了为决策模型增加更多功能的机制。其中一个选择是基于激活规则的超元组的一致性和大小来度量决策结果的质量。可以开发质量和风险评估技术,并将其作为DRA程序的一个组成部分,以加强要检索的反馈信息。

【论文阅读】A rule activation method for extended belief rule base with VP-tree and MVP-tree

【论文阅读】A rule activation method for extended belief rule base with VP-tree and MVP-tree

DIO:10.3233/JIFS-17521

期刊:Journal of Intelligent and Fuzzy Systems(智能与模糊系统杂志)

作者:林燕清(福州大学自动化技术)、傅仰耿、苏群、王应明

年份:2017

引用: Lin Y Q , Fu Y G , Su Q , et al. A rule activation method for extended belief rule base with VP-tree and MVP-tree[J]. Journal of Intelligent & Fuzzy Systems, 2017, 33(6):3695-3705.

 

本文的思路很像【苏群, 杨隆浩, 傅仰耿, et al. 基于BK树的扩展置信规则库结构优化框架[J]. 计算机科学与探索, 2016, 010(002):257-267】

针对 EBRB 在计算激活权重时,需要访问所有规则,这浪费了大量时间。为了减少计算激活权重时被访问的规则数量,本文提出了一种新的基于VP树和MVP树的规则激活方法,通过建立索引结构来存储规则,在计算激活权重时,只访问部分规则(查询阈值以内的),大大提升了ER推理效率。需要注意的是,基于树型索引的EBRB系统的性能受查询阈值的影响很大。但是,有时很难确定查询阈值的值,所以本文也提出了一种基于k-means聚类算法的方法来选择合适的查询阈值。

 

基于VP树和MVP树的 EBRB 的规则激活方法

摘要:置信规则在 EBRB 中的存储顺序不一致,这将削弱其推理性能,因为在计算每条规则的激活权重时,所有规则都会被访问。本文主要研究如何减少计算每条规则激活权重时被访问的规则数量。本文提出了一种新的基于VP树和MVP树的规则激活方法,以建立索引结构来存储规则。在计算每条规则的激活权重时,只检索和访问部分规则。需要注意的是,基于树型索引的EBRB系统的性能受查询阈值的影响很大。但是,有时很难确定查询阈值的值,所以本文也提出了一种基于k-means聚类算法的方法来选择合适的查询阈值。

 

1.问题背景

传统EBRB系统存在的一些缺陷:

  • 由于ERBB的置信规则是无序存储的,因此在计算推理过程中每个规则的激活权重时,不可避免地要访问所有规则。
  • 另外,噪声或不可靠的数据通常包含在EBRB中。当ERBB中的置信规则太多时,考虑到较高的时间成本和数据集的质量,其推理性能将降低

因此,通过遍历和激活几个重要规则来减少规则激活过程中涉及的规则数量非常重要。

最近文献中的一些研究试图处理EBRB系统中的这些问题。

  • 余瑞银【2014,Data driven construction and inference methodology of belief rule-base】提出了一种基于80/20原则的激活方法,在推理过程中只整合20%的激活规则。然而,这种方法在计算每条规则的激活权重时,仍然需要访问所有规则。
  • Calzada【2015,A new dynamic rule activation method for extended belief rule-based systems】提出的动态规则激活(dynamic rule activation,DRA)方法以动态的方式选择一组合适的激活规则,以解决EBRB系统中的不完整性和不一致性问题。但缺点是,这种方法涉及到耗时的迭代程序,消耗时间增加。
  • 苏群【2016,Structure optimization framework of extended belief rule based on BK-Tree】引入了一个结构优化框架,采用Burkhard-Keller树(BK-树)和一种新的方法来计算EBRB系统的个体匹配度。它是一种很好的方法,在计算每个规则的激活权重时,可以借助查询阈值检索最近的规则,避免访问所有规则。 但是,对于如何选择合适的查询阈值却没有提及,因为对于一些EBRB系统来说,基于树型索引结构来确定查询阈值是很困难的。如果查询阈值过大,所有的规则都会被检索到,这意味着为EBRB建立BK-树是多余的。但如果查询阈值太小,则会出现没有一条规则被激活的问题。

为了解决EBRB系统中的上述问题,本文提出了一种通过建立索引结构和聚类的规则激活方法。本文应用了三种方法:制高点树(vantage point tree,VP-tree)、多制高点树(multi-vantage point tree,MVP-tree)和 k-means 算法。 VP-树和MVP-树都是通过建立索引结构来解决寻找与给定查询项相似的数据项的问题。MVP-树是在VP-树的基础上进行改进,具有更多的优势点。

本文针对ERBB系统在计算每条规则的激活权重时需要访问所有规则的问题,提出了一种基于VP-树和MVP-树的规则激活方法,以访问更少但更有代表性的信念规则。

基于VP树和MVP树的EBRB系统可以根据规则间的相似性建立索引结构,高效地回答基于相似性的查询。在计算每条规则的激活权重时,只检索和访问几条规则的查询阈值,该阈值可以在开始时指定,也可以由k-means算法确定,这样可以提升EBRB系统的推理性能。所提出的方法的主要优点是其灵活性,因为它可以与任何EBRB系统或其他具有信念度分布框架的系统相结合。

 

2.VP树和MVP树

2.1度量空间和相似性查询

度量距离的函数满足以下特点:

相似性查询:检索与给定查询对象相距特定距离内的所有数据对象。

 

2.2 VP树​

VP树的结构是基于二分搜索的思想,是一类二叉树,与KD树不同的是在每个节点的划分策略。在VP树中,首先从数据集中随机选取一个数据点作为制高点,然后计算这个制高点与其他所有点的距离,并将这些点与这个制高点的距离排序为一个有序的列表。然后列表均匀的一分为二,列表左部分分给左子树,列表右部分分给右子树。再递归地建立左子树和右子树即可。

VP树的构造复杂度为,搜索复杂度理想情况下可以达到O(logn)。

 

【VP树的构建】假设一个EBRB系统为 ,其中的两条规则 距离为 ,那么可以按照下面的四个步骤来构造 VP 树:

  • step1:如果规则数为零,即,则建立一棵空树,退出;

  • step2:否则,从规则集 R 中随机选一条规则 作为vantage point;

  • step3:令M为R中所有规则与的距离的中值,与 距离小于、大于M的规则集分别构成左子树和右子树。即:

  • step4:递归地建立左子树和右子树;

 

【VP树的搜索】在构建出完整的一个 VP 树后,即可进行相似规则的搜索。进行搜索时,假设给定一个查询规则 、指定距离阈值 、当前的制高点为 、左右子树中的节点与制高点的距离中值为 ,那么在VP树上搜索相似规则的方法为:

  • step1:如果 ,则返回答案集
  • step1:如果 ,则返回答案集
  • step2:如果 ,则递归查找右子树 ;(如下左图,以Rv为圆心,M为半径做球,左子树节点就是球内的点,右子树就是球外的点。Rq加上阈值r后能够到球外的点,也就要求去右子树搜索);
  • step3:如果 ,则递归查找左子树 ;(如下右图,以Rv为圆心,M为半径做球,左子树节点就是球内的点,右子树就是球外的点。Rq减去阈值r后能够到球内的点,也就要求去左子树搜索);

 

2.3MVP树

MVP树是 VP 树的一个变种,预先储存距离数据,可大幅度减少距离运算(代价是构造时间复杂度)。从某种意义上说,MVP树和VP树都是利用与一个 vantage 点的相对距离来划分域空间的。但是MVP-树的表现更加灵活,它在每一级都有一个以上的 vantage 点。而由于这个特点,MVP树的 vantage 点整体上比VP树少。在相似性搜索过程中,由于MVP树保持了叶子节点上的数据点与上层vantage 点的距离,因此能够更有效地过滤远处的点。

MVP树的构造复杂度为,比VP树提高了,搜索复杂度即使在最坏的情况下也小于O(n)。

 

【MVP树的构建】假设一个EBRB系统为 ,其中的两条规则 距离为 ,参数k是指叶子节点的最大输出量,参数 m 代表一个 vantage 点创建的分区数,参数 p 用于存储预先计算的距离值,参数 level 记录从根节点到当前子节点的vantage point的数目,初始值为1。对于每条规则Ri,它与沿根节点到叶节点的路径上的第一个制高点 p 之间的预先计算的距离保存在 中。

因为m的值越大,MVP树的结构就越复杂,所以本文按照以下三个步骤构建参数为 m=2 的MVP树:

  • step1:如果|R|=0,即规则数为零,则返回一棵空树,退出;

  • step2:否则,如果 ,则:(构建叶子节点即可)

    • 2.1:从规则集R中任选一条规则作为第一个vantage point,记为
    • 2.2:将 从规则集合 中删去;计算 到其他规则的距离 ,存入数组
    • 2.3:选择距离 最远的规则 作为第二个vantage point;
    • 2.4:将 从规则集合 中删去,计算 到其他规则的距离 ,存入数组
    • 2.5:退出
  • step3:否则,如果,则:

    • 3.1:从规则集R中任选一条规则作为第一个vantage point,记为
    • 3.2:将 从R中删去,计算 到其他规则的距离 。若 ,则存为
    • 3.3:令为规则集R中的所有规则与的距离的中值,与 距离小于、大于的规则集分别划分为两个数据集
    • 3.4:从中任选一条规则作为第二个vantage点,记为
    • 3.5:将从R中删去,计算到其他规则的距离 。若,则存为
    • 3.6:令分别为的距离中值,用分成两个子数据集;
    • 3.7:𝑙𝑒𝑣𝑒𝑙=𝑙𝑒𝑣𝑒𝑙+2,递归构造MVP树。

 

【MVP树的搜索】在构建出完整的一个 MVP 树后,即可进行相似规则的搜索。进行搜索时,假设给定一个查询规则 、指定距离阈值 、当前的制高点为 、左右子树中的节点与制高点的距离中值为 ,那么在VP树上搜索相似规则的方法为:

  • step1:计算 与第一、二个vantage point的距离。若,则 为查询结果;若,则 为查询结果
  • step2:对于叶节点:

    • step2.1:分别从获取
    • step2.2:如果满足,那么对于𝑖=1,…,𝑝,满足,则计算,如果满足,则为查询结果
  • step3:对于内部节点:

    • step3.1:如果level≤p,则

      如果level<p,则

    • step3.2:如果,则:

      如果,则level=level+2,递归查询第一个分支;

      如果,则level=level+2,递归查询第二个分支;

    • step3.3:如果,则:

      如果,则level=level+2,递归查询第三个分支;

      如果,则level=level+2,递归查询第四个分支;

       

参考自:基于度量空间高维索引结构VP-tree及MVP-tree的图像检索 - 豆丁

 

3.3 K均值聚类算法

该算法的基本步骤如下:

1)将对象任意划分为k个非空子集,形成k个初始簇。

2)对于每个对象,在所有质心中找到与该对象最接近的质心,然后将该对象分配给具有最接近质心的簇。

3)对于每个簇,用簇的均值更新其质心。 如果质心没有更新,则停止并输出对象的分配; 否则,返回步骤2。

 

3.一种新的EBRB规则激活方法

图1详细说明了使用VP树和MVP树的EBRB推理方法的过程。可以看出,首先需要确定查询阈值。

 

基于k-means算法的查询阈值选择方法:

  • 1)使用k-means算法将所有规则聚类为k个簇。
  • 2)对于每个输入数据,从每个簇中任意选择一个规则作为代表规则, 然后计算输入数据与这k个代表规则之间的距离以及这k个代表规则的激活权重。
  • 3)从那些大于零的相应激活权重的规则中选择最小距离作为查询阈值。
  • 4)如果所有选定规则的激活权重均小于零,则应将查询阈值设置为较大的值以访问所有规则。

当然,如果可以确定查询阈值,那么在搜索邻域规则时可以省略上述步骤,因为k-means算法是一种迭代方法。其计算复杂度大致由O(tdkN)来约束,其中N为数据对象的数量,d为数据维度,k为待形成的聚类数量,t为终止前的迭代次数。

那么我们就可以基于VP-树和MVP-树来构建EBRB的索引结构。在用VP树或MVP树建立索引结构后,我们可以检索到给定输入数据的指定距离内的规则。这些检索到的规则将被访问,并用于计算每个规则的激活权重。最后,利用ER算法作为推理引擎,对激活的规则进行聚合,得到最终的推理结果。

 

4.案例研究

4.1函数回归

拟合非线性函数:

从x的取值范围中均匀选取500个值作为训练数据,生成Liu-EBRB、BK-EBRB、VP-EBRB和MVP-EBRB系统。

查询阈值设置为0.01,所以这里不需要使用k-means聚类算法。

函数回归结果如图2所示。 对于相同的查询阈值,BK-EBRB、VP-EBRB和MVP-EBBR将检索到相同的规则,因此BK-EBRB、VP-EBRB和MVPEBRB的推理结果在图2中用一条线表示。

从图2中可以看出,Liu-EBRB系统接收到的模拟输出与非线性函数f(x)计算出的观测输出有很大的差异。因此,我们可以得出结论,BKEBRB、VP-EBRB 和 MVP-EBRB 系统对非线性函数 f(x)的拟合度比 Liu-EBRB 更好。

 

表1比较了刘-EBRB、BK-EBRB、VP-EBRB和MVPEBBR的构建系统复杂度

从表1可以看出,BK-EBRB、VP-EBRB和MVP-EBRB由于索引结构的构建,复杂度较高。但BK-EBRB、VP-EBRB和MVP-EBRB可以高效地访问邻域信念规则,复杂度较低。

 

表2总结了刘-EBRB、BK-EBRB、VP-EBRB和MVPEBRB系统的比较结果。衡量标准是:(1)MSE:模拟输出与观测输出之间的均方误差;(2)RT:算法的运行时间,包括建立系统的时间(BST)和推理过程的时间(IPT);(3)VR:计算每条规则的激活权重时访问的规则总数。

从表2可以看出,与Liu-EBRB相比,VP-EBRB和MVP-EBRB所需的推理程序时间更少,因为所提出的规则激活方法只访问部分规则,而不是遍历所有规则来计算每条规则的激活权重。最重要的是,如表2所示,VP-EBRB和MVP-EBRB的MSE比Liu-EBRB系统要小。而与BK-EBRB相比,即使BKEBRB的MSE与VP-EBRB和MVP-EBRB相同,VP-EBRB和MVP-EBRB需要的运行时间更少,访问规则更少。所以推断VP-EBRB和MVP-EBRB的效率更高。

 

4.2 分类问题

为了显示查询阈值对VP-EBRB或MVP-EBRB的影响,我们在虹膜数据集上采用不同的指定查询阈值建立VP-EBRB系统。实验结果如图5和图6所示。

在图5中,横轴为查询阈值,纵轴表示计算每条规则激活权重时访问的规则总数。

 

在图6中,横轴是查询阈值,而纵轴表示由于没有规则被激活而无法推断的输入数据数量。

从图5中我们可以看到,随着查询阈值的降低,被访问的规则数量会减少。 如图 6 所示,随着查询阈值的降低,无法推断的输入数据数量将从零开始增加。也就是说,虽然小的查询阈值可以大大减少访问规则,但也会造成无激活规则的问题。所以,需要选择一个合适的查询阈值,既能尽可能的减少访问规则,又能避免无激活规则的问题。

 

为了验证所提出的基于k-means聚类算法方法选择查询阈值的效率,从UC 机器学习库中获取了7个经典数据集[。对VP-EBRB和MVP-EBRB系统进行一系列10次10倍的交叉验证测试。

如表3所示,将本文提出的VP-EBRB和MVP-EBRB系统与现有的一些方法相比。比较结果的衡量指标用(1)Accuracy:从总样本中正确分类的类的百分比;(2)VRR:推理过程中访问的规则占总规则的百分比;(3)Failed:该方法无法激活任何规则的测试次数。

VP-EBRB和MVP-EBRB系统采用k-means聚类算法,在计算每条规则的激活权重时,可以减少规则的访问次数,不会造成无激活规则的问题。这主要是因为所提出的规则激活方法是基于VPtree和MVP-树,通过k-means算法选取适当的查询阈值,可以减少访问规则的数量,整合关键规则,削弱不一致数据的影响。

 

5.结论

本文提出了一种新的基于VP-树和MVP-树的EBRB规则激活方法,以解决在规则激活过程中,由于所有规则的存储顺序不一致,所以在计算每条规则的激活权重时要访问所有的信念规则。 此外,由于激活的规则太多,EBRB的推理性能会降低。本文提出的优化方法通过VP树或MVP树在信念规则上建立索引结构,以减少访问规则的数量。通过合适的查询阈值,可以检索到更多的代表性规则和更少的规则,并在推理过程中进行聚合。

查询阈值对VP-EBRB和MVP-EBRB的性能影响很大。小的查询阈值可以减少被访问的规则数量,但过大的查询阈值容易造成无激活规则的问题。值得一提的是,查询阈值可以直接给出,也可以通过提出的基于k-means算法的聚类方法进行选择,以避免无激活规则问题。需要注意的是,所提出的方法不仅缩短了推理时间,而且为实现更好的推理性能提供了可能。

此外,所提出的优化方法具有良好的可扩展性,可以与其他任何具有信念度分布框架的决策模型相结合。 在函数回归的情况下,本文验证了所提出的规则激活方法可以提高EBRB系统的推理性能。 而在类数众多的数据案例中,已经证明了查询阈值的重要性,以及使用k-means聚类算法选择合适的查询阈值的有效性。